今天,我们以一个“按规则删除行列”的案例为例,对表格中的列执行如下操作:

1. 删除“内部备注”“调试标记”“冗余编码”三列。
2. 删除“订单状态”列为“测试订单”或“已取消”的行。
3. 删除“支付金额”列小于等于0的行。
4. 保留“记录ID”“订单ID”“用户ID”“下单时间”“订单状态”“支付金额”“收货省份”这7列,其余列全部删除。
5. 删除“支付状态”为“支付失败”且“优惠金额”大于“支付金额”的记录。


一、需求分析

有一个表格,50w数据。截取了表头和部分数据:

记录ID 导入批次 订单ID 用户ID 下单时间 支付时间 订单状态 支付状态 支付金额 优惠金额 下单渠道 客户等级 收货省份 手机号 身份证号 内部备注 调试标记 冗余编码
R000000001 BATCH-0001 O202505000000001 U01000001 2025-05-02 08:07:00 2025-05-02 08:11:00 测试订单 支付成功 83.15 5.00 小程序 B 江苏省 13100000001 32010119900000011X 导入成功 NORMAL RC-00001
R000000002 BATCH-0002 O202505000000002 U01000002 2025-05-03 08:14:00 2025-05-03 08:19:00 已取消 退款完成 86.40 10.00 门店 C 上海市 13100000002 32010119900000021X 导入成功 NORMAL RC-00002
R000000003 BATCH-0003 O202505000000003 U01000003 2025-05-04 08:21:00 2025-05-04 08:27:00 已完成 支付成功 0.00 15.00 官网 D 广东省 13100000003 32010119900000031X 导入成功 NORMAL RC-00003
R000000004 BATCH-0004 O202505000000004 U01000004 2025-05-05 08:28:00 2025-05-05 08:35:00 退款中 未支付 -18.00 20.00 企业采购 A 北京市 13100000004 32010119900000041X 导入成功 NORMAL RC-00004
R000000005 BATCH-0005 O202505000000005 U01000005 2025-05-06 08:35:00 2025-05-06 08:10:00 待支付 支付成功 96.15 25.00 APP B 四川省 13100000005 32010119900000051X 导入成功 NORMAL RC-00005


现在需要清理掉一些行和列,如下步骤:

1. 删除“内部备注”“调试标记”“冗余编码”三列。
2. 删除“订单状态”列为“测试订单”或“已取消”的行。
3. 删除“支付金额”列小于等于0的行。
4. 保留“记录ID”“订单ID”“用户ID”“下单时间”“订单状态”“支付金额”“收货省份”这7列,其余列全部删除。
5. 删除“支付状态”为“支付失败”且“优惠金额”大于“支付金额”的记录。


二、工作流配置

为了对表格进行清洗,清理重复数据,我们首先需要获取表格,然后配置”内容清洗“。


找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。


然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。

等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图: