今天,我们以一个“格式统一化清洗”的案例为例,对表格中的列执行如下操作:
1. 将“手机号”列非数字字符去掉,然后去掉"86","0086","086"开头的字符。
2. 将“身份证号”列中的所有空格清理掉,并把末位小写x统一改成大写X。
3. 将“客户编码”列中的前后空格清理掉,把小写字母统一转成大写。并且将“#”,“_”,“/”,“.”, 空格" ,这些字符都替换成"-"。
一、需求分析
有一个表格,200w数据。截取了表头和2行数据如图:
| 记录ID | 客户姓名 | 手机号 | 身份证号 | 客户编码 | 下单日期 | 渠道 | 备注 |
| R00000001 | 李一 | 13100000001 | 320312197707070021 | cust-000002 | 2025/4/2 | 门店 | 标准基线 |
| R00000002 | 王一 | 131 0000 0002 | 320313197707080032 | CUST-000003 | 2025/4/3 0:00 | 分销 | 手机号含空格 |
| R00000003 | 赵一 | +86 13100000003 | 320314 19770709 0043 | cust000004 | 2025年4月4日 | 代理 | 含国家区号 |
| R00000004 | 陈一 | 086-13100000004 | 32031519770710005x | Cust_000005 | 2025.04.05 | 电商 | 身份证大小写混用 |
| R00000005 | 刘一 | (+86)13100000005 | 320316197707110065 | cust 000006 | 2025/4/6 | 门店 | 客户编码分隔符不同 |
| R00000006 | 杨一 | 131-0000-0006 | 320317 19770712 0076 | cust/000007 | 20250407 | 分销 | 日期是纯数字 |
| R00000007 | 黄一 | 1310000 0007 | 320318197707130087 | cust.000008 | 2025/4/8 13:45 | 代理 | 日期带时间 |
| R00000008 | 周一 | +86-13100000008 | 32031919770714009 x | cust#000009 | 2025/4/9 8:00 | 电商 | 前后空格 |
| R00000009 | 吴一 | 131.0000.0009 | 320320197707150109 | cUsT-000010 | 2025/4/10 | 门店 | 括号和特殊分隔 |
这批表格数据数据的”手机号“,”身份证号“,”客户编码“都很不规则,需要统一规则。从原始数据,我们可以总结出清洗步骤:
1. 将“手机号”列非数字字符去掉,然后去掉"86","0086","086"开头的字符。
2. 将“身份证号”列中的所有空格清理掉,并把末位小写x统一改成大写X。
3. 将“客户编码”列中的前后空格清理掉,把小写字母统一转成大写。并且将“#”,“_”,“/”,“.”, 空格" ,这些字符都替换成"-"。
二、工作流配置
为了对表格进行清洗,清洗异常数据,我们首先需要获取表格,然后配置”内容清洗“。
找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。
然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。
等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图:

