今天,我们以一个“按规则新增列”的案例为例,对表格中的列执行如下操作:
1. 新增“订单状态文本”列,“订单状态码”列为0时取“未下单”,否则取“已下单”。
2. 新增“金额分层”列,“支付金额”列小于100时取“小额订单”,100到999.99时取“普通订单”,大于等于1000时取“大额订单”。
3. 新增“下单时段”列,根据“下单时间”列的小时数,0到5点取“凌晨”,6到11点取“上午”,12到17点取“下午”,其余取“晚上”。
4. 新增“订单摘要”列,将“下单渠道”“客户等级”“收货省份”三列的值按“渠道-等级-省份”的形式拼接起来。
5. 新增“退款说明”列,将“是否退款”和“退款金额”两列组合起来;“是否退款”为1时取“已退款-退款金额”,否则取“未退款-0.00”。
6. 新增“客户渠道标签”列,将“客户等级”和“下单渠道”两列组合起来;客户等级为A或B且下单渠道为APP或小程序时取“高价值线上客户”,否则取“普通客户”。
7. 新增“订单时间键”列,将“下单时间”列中的日期部分和小时部分拼接成类似2025-01-01_09的新值。
8. 新增“订单规则说明”列,将“订单状态码”“支付金额”“账期天数”三列按“状态码|金额分层|账期分组”的形式组合成一个新值。
一、需求分析
有一个表格,2000w数据。截取了表头和部分数据:
| 记录ID | 订单状态码 | 支付金额 | 下单时间 | 下单渠道 | 是否退款 | 退款金额 | 账期天数 | 客户等级 | 收货省份 |
| R000000001 | 1 | 199.01 | 2025/1/2 9:01 | 小程序 | 0 | 0 | 30 | B | 浙江省 |
| R000000002 | 2 | 599.02 | 2025/1/3 15:02 | 门店 | 0 | 0 | 45 | C | 上海市 |
| R000000003 | 9 | 1299.03 | 2025/1/4 21:03 | 地推 | 0 | 0 | 60 | D | 广东省 |
| R000000004 | 0 | 4999.04 | 2025/1/5 2:04 | 官网 | 0 | 0 | 90 | A | 广西壮族自治区 |
| R000000005 | 1 | 88.85 | 2025/1/6 9:05 | APP | 1 | 17.5 | 120 | B | 北京市 |
| R000000006 | 2 | 59.96 | 2025/1/7 15:06 | 小程序 | 0 | 0 | 15 | C | 四川省 |
| R000000007 | 9 | 199.07 | 2025/1/8 21:07 | 门店 | 0 | 0 | 30 | D | 江苏省 |
| R000000008 | 0 | 599.08 | 2025/1/9 2:08 | 地推 | 0 | 0 | 45 | A | 浙江省 |
| R000000009 | 1 | 1299.09 | 2025/1/10 9:09 | 官网 | 1 | 23.5 | 60 | B | 上海市 |
| R000000010 | 2 | 4999.1 | 2025/1/11 15:10 | APP | 1 | 25 | 90 | C | 广东省 |
| R000000011 | 9 | 88.91 | 2025/1/12 21:11 | 小程序 | 0 | 0 | 120 | D | 广西壮族自治区 |
| R000000012 | 0 | 60.02 | 2025/1/13 2:12 | 门店 | 0 | 0 | 15 | A | 北京市 |
现在需要根据已有的列数据进行条件计算,生成一些新的列,如下步骤:
1. 新增“订单状态文本”列,“订单状态码”列为0时取“未下单”,否则取“已下单”。
2. 新增“金额分层”列,“支付金额”列小于100时取“小额订单”,100到999.99时取“普通订单”,大于等于1000时取“大额订单”。
3. 新增“下单时段”列,根据“下单时间”列的小时数,0到5点取“凌晨”,6到11点取“上午”,12到17点取“下午”,其余取“晚上”。
4. 新增“订单摘要”列,将“下单渠道”“客户等级”“收货省份”三列的值按“渠道-等级-省份”的形式拼接起来。
5. 新增“退款说明”列,将“是否退款”和“退款金额”两列组合起来;“是否退款”为1时取“已退款-退款金额”,否则取“未退款-0.00”。
6. 新增“客户渠道标签”列,将“客户等级”和“下单渠道”两列组合起来;客户等级为A或B且下单渠道为APP或小程序时取“高价值线上客户”,否则取“普通客户”。
7. 新增“订单时间键”列,将“下单时间”列中的日期部分和小时部分拼接成类似2025-01-01_09的新值。
8. 新增“订单规则说明”列,将“订单状态码”“支付金额”“账期天数”三列按“状态码|金额分层|账期分组”的形式组合成一个新值。
二、工作流配置
为了对表格进行清洗,清理重复数据,我们首先需要获取表格,然后配置”内容清洗“。
找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。
然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。
等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图:

