今天,我们以一个“按规则修改行列”的案例为例,对表格中的列执行如下操作:

1. 将“支付金额”列统一保留2位小数,按四舍五入修改原值。
2. 将“支付金额(分)”列按“支付金额”列乘以100后取整重新计算。
3. 将“优惠后金额”列按“支付金额”减去“优惠金额”重新计算,并保留2位小数。
4. 将“收货省份”列按“收货地址”中的真实省份名称重写。
5. 将“收货地址”列中的“-”“--”“|”“空格”“->”等分隔方式统一改成“/”。
6. 将“订单ID”列改成只保留最后8位数字流水号。


一、需求分析

有一个表格,100w数据。截取了表头和部分数据:

记录ID 订单ID 支付金额 优惠金额 优惠后金额 支付金额(分) 下单时间 支付时间 订单时长分钟 账期天数 账期截止日期 收货省份 收货地址
R00000001 ORD20250600000001 88.0137 3.268 84.746 8798 2025/6/2 8:01 2025/6/2 8:07 1 15 2025/6/17 待识别 浙江省宁波市鄞州区
R00000002 SO-00000002 199.027 6.536 192.761 19903 2025/6/3 8:02 2025/6/3 8:09 7 30 2025/7/4 江苏省 江苏省/苏州市/工业园区
R00000003 ORDER_00000003 599.0411 9.804 588.97 59907 2025/6/4 8:03 2025/6/4 8:11 13 45 2025/7/18 华东区 上海市-闵行区-七宝
R00000004 NO.00000004 899.0548 13.072 885.983 89911 2025/6/5 8:04 2025/6/5 8:13 -1 60 2025/8/4 华南区 广东省 广州市 天河区
R00000005 SALE00000005 1299.0685 15.785 1283.5535 129901 2025/6/6 8:05 2025/6/6 8:15 5 90 2025/9/5 北京市 北京市->海淀区->中关村
R00000006 ORD20250600000006 4999.082 19.053 4979.76 499905 2025/6/7 8:06 2025/6/7 8:17 11 7 2025/6/13 浙江省 浙江省 / 杭州市 / 西湖区
R00000007 SO-00000007 59.9959 22.321 37.675 6000 2025/6/8 8:07 2025/6/8 8:19 17 15 2025/6/23 待补充 江苏省--南京市--鼓楼区
R00000008 ORDER_00000008 88.1096 25.589 62.7906 8814 2025/6/9 8:08 2025/6/9 8:21 3 30 2025/7/10 上海市 上海市|浦东新区|张江
R00000009 NO.00000009 199.1233 0.444 198.41 19918 2025/6/10 8:09 2025/6/10 8:23 9 45 2025/7/24 待识别 广东省深圳市南山区


现在需要对一些行和列进行修改,如下步骤:

1. 将“支付金额”列统一保留2位小数,按四舍五入修改原值。
2. 将“支付金额(分)”列按“支付金额”列乘以100后取整重新计算。
3. 将“优惠后金额”列按“支付金额”减去“优惠金额”重新计算,并保留2位小数。
4. 将“收货省份”列按“收货地址”中的真实省份名称重写。
5. 将“收货地址”列中的“-”“--”“|”“空格”“->”等分隔方式统一改成“/”。
6. 将“订单ID”列改成只保留最后8位数字流水号。


二、工作流配置

为了对表格进行清洗,清理重复数据,我们首先需要获取表格,然后配置”内容清洗“。


找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。


然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。

等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图: