在正式清洗数据前,常规流程中通常会先进行一轮数据质量检查,目的是判断当前数据是否可靠。今天,我们以一个“空值清洗”的案例为例,对表格中的列执行如下操作:
1. 删除“订单ID”列为空的记录。
2. 删除“用户ID”列为空的记录。
3. 删除“下单时间”列为空的记录。
4. 删除“支付时间”列为空的记录。
5. 删除“订单金额”列为空的记录。
6. 删除“支付方式”列为空的记录。
7. 删除“手机号”列为空的记录。
8. 删除“收货省份”列为空的记录。
9. 删除“商品SKU”列为空的记录。
10.删除"订单状态"列为空的记录。
一、需求分析
有一个XLSX表格,100w数据。截取了表头前部分数据:
| 记录ID | 订单ID | 用户ID | 下单时间 | 支付时间 | 订单状态 | 订单金额 | 优惠金额 | 支付方式 | 手机号 | 收货省份 | 商品SKU |
| R00000001 | NULL |
U1000001 | 2025-04-01 08:03 | 2025-04-01 08:09 | 待支付 | 113.7 | 2.5 | 支付宝 | 13100000001 | 江苏省 | SKU-000001 |
| R00000002 | U1000002 | 2025-04-01 08:06 | 2025-04-01 08:13 | 已发货 | 127.4 | 5 | 银行卡 | 13100000002 | 上海市 | SKU-000002 | |
| R00000003 | U1000003 | 2025-04-01 08:09 | 2025-04-01 08:17 | 已完成 | 141.1 | 7.5 | 微信 | 13100000003 | 广东省 | SKU-000003 | |
| R00000004 | U1000004 | 2025-04-01 08:12 | 2025-04-01 08:21 | 已支付 | 154.8 | 10 | 支付宝 | 13100000004 | 北京市 | SKU-000004 | |
| R00000005 | O20250400000005 | 2025-04-01 08:15 | 2025-04-01 08:25 | 待支付 | 168.5 | 12.5 | 银行卡 | 13100000005 | 四川省 | SKU-000005 | |
| R00000006 | O20250400000006 | 2025-04-01 08:18 | 2025-04-01 08:29 | 已发货 | 182.2 | 15 | 微信 | 13100000006 | 浙江省 | SKU-000006 |
这个表格数据有很多为空的数据,比如:
None、空字符串、只包含半角空格/全角空格/制表符/换行的内容。
我们需要清洗掉,只含有上面描述的这些符号的数据记录。 下面我们进行工作流的配置。
二、工作流配置
为了对表格进行清洗,过滤空值数据,我们首先需要获取表格,然后配置”内容清洗“。
找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。
然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。
等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图:

