今天,我们以一个“按规则新增列”的案例为例,对表格中的列执行如下操作:

1. 新增“订单状态文本”列,“订单状态码”列为0时取“未下单”,否则取“已下单”。
2. 新增“金额分层”列,“支付金额”列小于100时取“小额订单”,100到999.99时取“普通订单”,大于等于1000时取“大额订单”。
3. 新增“下单时段”列,根据“下单时间”列的小时数,0到5点取“凌晨”,6到11点取“上午”,12到17点取“下午”,其余取“晚上”。
4. 新增“订单摘要”列,将“下单渠道”“客户等级”“收货省份”三列的值按“渠道-等级-省份”的形式拼接起来。
5. 新增“退款说明”列,将“是否退款”和“退款金额”两列组合起来;“是否退款”为1时取“已退款-退款金额”,否则取“未退款-0.00”。
6. 新增“客户渠道标签”列,将“客户等级”和“下单渠道”两列组合起来;客户等级为A或B且下单渠道为APP或小程序时取“高价值线上客户”,否则取“普通客户”。
7. 新增“订单时间键”列,将“下单时间”列中的日期部分和小时部分拼接成类似2025-01-01_09的新值。
8. 新增“订单规则说明”列,将“订单状态码”“支付金额”“账期天数”三列按“状态码|金额分层|账期分组”的形式组合成一个新值。

一、需求分析

有一个表格,2000w数据。截取了表头和部分数据:

记录ID 订单状态码 支付金额 下单时间 下单渠道 是否退款 退款金额 账期天数 客户等级 收货省份
R000000001 1 199.01 2025/1/2 9:01 小程序 0 0 30 B 浙江省
R000000002 2 599.02 2025/1/3 15:02 门店 0 0 45 C 上海市
R000000003 9 1299.03 2025/1/4 21:03 地推 0 0 60 D 广东省
R000000004 0 4999.04 2025/1/5 2:04 官网 0 0 90 A 广西壮族自治区
R000000005 1 88.85 2025/1/6 9:05 APP 1 17.5 120 B 北京市
R000000006 2 59.96 2025/1/7 15:06 小程序 0 0 15 C 四川省
R000000007 9 199.07 2025/1/8 21:07 门店 0 0 30 D 江苏省
R000000008 0 599.08 2025/1/9 2:08 地推 0 0 45 A 浙江省
R000000009 1 1299.09 2025/1/10 9:09 官网 1 23.5 60 B 上海市
R000000010 2 4999.1 2025/1/11 15:10 APP 1 25 90 C 广东省
R000000011 9 88.91 2025/1/12 21:11 小程序 0 0 120 D 广西壮族自治区
R000000012 0 60.02 2025/1/13 2:12 门店 0 0 15 A 北京市


现在需要根据已有的列数据进行条件计算,生成一些新的列,如下步骤:

1. 新增“订单状态文本”列,“订单状态码”列为0时取“未下单”,否则取“已下单”。
2. 新增“金额分层”列,“支付金额”列小于100时取“小额订单”,100到999.99时取“普通订单”,大于等于1000时取“大额订单”。
3. 新增“下单时段”列,根据“下单时间”列的小时数,0到5点取“凌晨”,6到11点取“上午”,12到17点取“下午”,其余取“晚上”。
4. 新增“订单摘要”列,将“下单渠道”“客户等级”“收货省份”三列的值按“渠道-等级-省份”的形式拼接起来。
5. 新增“退款说明”列,将“是否退款”和“退款金额”两列组合起来;“是否退款”为1时取“已退款-退款金额”,否则取“未退款-0.00”。
6. 新增“客户渠道标签”列,将“客户等级”和“下单渠道”两列组合起来;客户等级为A或B且下单渠道为APP或小程序时取“高价值线上客户”,否则取“普通客户”。
7. 新增“订单时间键”列,将“下单时间”列中的日期部分和小时部分拼接成类似2025-01-01_09的新值。
8. 新增“订单规则说明”列,将“订单状态码”“支付金额”“账期天数”三列按“状态码|金额分层|账期分组”的形式组合成一个新值。


二、工作流配置

为了对表格进行清洗,清理重复数据,我们首先需要获取表格,然后配置”内容清洗“。


找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。


然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。

等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图: