今天,我们以一个“按规则删除行列”的案例为例,对表格中的列执行如下操作:
1. 删除“内部备注”“调试标记”“冗余编码”三列。
2. 删除“订单状态”列为“测试订单”或“已取消”的行。
3. 删除“支付金额”列小于等于0的行。
4. 保留“记录ID”“订单ID”“用户ID”“下单时间”“订单状态”“支付金额”“收货省份”这7列,其余列全部删除。
5. 删除“支付状态”为“支付失败”且“优惠金额”大于“支付金额”的记录。
一、需求分析
有一个表格,50w数据。截取了表头和部分数据:
| 记录ID | 导入批次 | 订单ID | 用户ID | 下单时间 | 支付时间 | 订单状态 | 支付状态 | 支付金额 | 优惠金额 | 下单渠道 | 客户等级 | 收货省份 | 手机号 | 身份证号 | 内部备注 | 调试标记 | 冗余编码 |
| R000000001 | BATCH-0001 | O202505000000001 | U01000001 | 2025-05-02 08:07:00 | 2025-05-02 08:11:00 | 测试订单 | 支付成功 | 83.15 | 5.00 | 小程序 | B | 江苏省 | 13100000001 | 32010119900000011X | 导入成功 | NORMAL | RC-00001 |
| R000000002 | BATCH-0002 | O202505000000002 | U01000002 | 2025-05-03 08:14:00 | 2025-05-03 08:19:00 | 已取消 | 退款完成 | 86.40 | 10.00 | 门店 | C | 上海市 | 13100000002 | 32010119900000021X | 导入成功 | NORMAL | RC-00002 |
| R000000003 | BATCH-0003 | O202505000000003 | U01000003 | 2025-05-04 08:21:00 | 2025-05-04 08:27:00 | 已完成 | 支付成功 | 0.00 | 15.00 | 官网 | D | 广东省 | 13100000003 | 32010119900000031X | 导入成功 | NORMAL | RC-00003 |
| R000000004 | BATCH-0004 | O202505000000004 | U01000004 | 2025-05-05 08:28:00 | 2025-05-05 08:35:00 | 退款中 | 未支付 | -18.00 | 20.00 | 企业采购 | A | 北京市 | 13100000004 | 32010119900000041X | 导入成功 | NORMAL | RC-00004 |
| R000000005 | BATCH-0005 | O202505000000005 | U01000005 | 2025-05-06 08:35:00 | 2025-05-06 08:10:00 | 待支付 | 支付成功 | 96.15 | 25.00 | APP | B | 四川省 | 13100000005 | 32010119900000051X | 导入成功 | NORMAL | RC-00005 |
现在需要清理掉一些行和列,如下步骤:
1. 删除“内部备注”“调试标记”“冗余编码”三列。
2. 删除“订单状态”列为“测试订单”或“已取消”的行。
3. 删除“支付金额”列小于等于0的行。
4. 保留“记录ID”“订单ID”“用户ID”“下单时间”“订单状态”“支付金额”“收货省份”这7列,其余列全部删除。
5. 删除“支付状态”为“支付失败”且“优惠金额”大于“支付金额”的记录。
二、工作流配置
为了对表格进行清洗,清理重复数据,我们首先需要获取表格,然后配置”内容清洗“。
找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。
然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。
等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图:

