在正式清洗数据前,常规流程中通常会先进行一轮数据质量检查,目的是判断当前数据是否可靠。今天,我们以一个“空值清洗”的案例为例,对表格中的列执行如下操作:

1. 删除“订单ID”列为空的记录。
2. 删除“用户ID”列为空的记录。
3. 删除“下单时间”列为空的记录。
4. 删除“支付时间”列为空的记录。
5. 删除“订单金额”列为空的记录。
6. 删除“支付方式”列为空的记录。
7. 删除“手机号”列为空的记录。
8. 删除“收货省份”列为空的记录。
9. 删除“商品SKU”列为空的记录。
10.删除"订单状态"列为空的记录。


一、需求分析

有一个XLSX表格,100w数据。截取了表头前部分数据:

记录ID 订单ID 用户ID 下单时间 支付时间 订单状态 订单金额 优惠金额 支付方式 手机号 收货省份 商品SKU
R00000001 NULL
U1000001 2025-04-01 08:03 2025-04-01 08:09 待支付 113.7 2.5 支付宝 13100000001 江苏省 SKU-000001
R00000002 U1000002 2025-04-01 08:06 2025-04-01 08:13 已发货 127.4 5 银行卡 13100000002 上海市 SKU-000002
R00000003   U1000003 2025-04-01 08:09 2025-04-01 08:17 已完成 141.1 7.5 微信 13100000003 广东省 SKU-000003
R00000004 U1000004 2025-04-01 08:12 2025-04-01 08:21 已支付 154.8 10 支付宝 13100000004 北京市 SKU-000004
R00000005 O20250400000005 2025-04-01 08:15 2025-04-01 08:25 待支付 168.5 12.5 银行卡 13100000005 四川省 SKU-000005
R00000006 O20250400000006 2025-04-01 08:18 2025-04-01 08:29 已发货 182.2 15 微信 13100000006 浙江省 SKU-000006


这个表格数据有很多为空的数据,比如:

None、空字符串、只包含半角空格/全角空格/制表符/换行的内容。


我们需要清洗掉,只含有上面描述的这些符号的数据记录。 下面我们进行工作流的配置。


二、工作流配置

为了对表格进行清洗,过滤空值数据,我们首先需要获取表格,然后配置”内容清洗“。

找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。


然后挂一个”内容清洗“,如图:


提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。

等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图: