今天,我们以一个“格式统一化清洗”的案例为例,对表格中的列执行如下操作:

1. 将“手机号”列非数字字符去掉,然后去掉"86","0086","086"开头的字符。
2. 将“身份证号”列中的所有空格清理掉,并把末位小写x统一改成大写X。
3. 将“客户编码”列中的前后空格清理掉,把小写字母统一转成大写。并且将“#”,“_”,“/”,“.”, 空格" ,这些字符都替换成"-"。

一、需求分析

有一个表格,200w数据。截取了表头和2行数据如图:

记录ID 客户姓名 手机号 身份证号 客户编码 下单日期 渠道 备注
R00000001 李一 13100000001 320312197707070021 cust-000002 2025/4/2 门店 标准基线
R00000002 王一 131 0000 0002 320313197707080032 CUST-000003 2025/4/3 0:00 分销 手机号含空格
R00000003 赵一 +86 13100000003 320314 19770709 0043 cust000004 2025年4月4日 代理 含国家区号
R00000004 陈一 086-13100000004 32031519770710005x Cust_000005 2025.04.05 电商 身份证大小写混用
R00000005 刘一 (+86)13100000005 320316197707110065 cust 000006 2025/4/6 门店 客户编码分隔符不同
R00000006 杨一 131-0000-0006 320317 19770712 0076 cust/000007 20250407 分销 日期是纯数字
R00000007 黄一 1310000 0007 320318197707130087 cust.000008 2025/4/8 13:45 代理 日期带时间
R00000008 周一 +86-13100000008 32031919770714009 x cust#000009 2025/4/9 8:00 电商 前后空格
R00000009 吴一 131.0000.0009 320320197707150109 cUsT-000010 2025/4/10 门店 括号和特殊分隔


这批表格数据数据的”手机号“,”身份证号“,”客户编码“都很不规则,需要统一规则。从原始数据,我们可以总结出清洗步骤:

1. 将“手机号”列非数字字符去掉,然后去掉"86","0086","086"开头的字符。
2. 将“身份证号”列中的所有空格清理掉,并把末位小写x统一改成大写X。
3. 将“客户编码”列中的前后空格清理掉,把小写字母统一转成大写。并且将“#”,“_”,“/”,“.”, 空格" ,这些字符都替换成"-"。


二、工作流配置

为了对表格进行清洗,清洗异常数据,我们首先需要获取表格,然后配置”内容清洗“。


找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。


然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。

等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图: