在正式清洗数据前,常规流程中通常会先进行一轮数据质量检查,目的是判断当前数据是否可靠。今天,我们以一个“条件范围”的案例为例,对表格中的列执行如下操作:
1.删除“账期结束”列早于“账期开始”的记录。
2.删除“承诺账期天数”列小于0或大于365天的记录。
3.删除“付款截止日”列早于“账期结束”的记录。
4.删除“币种”列不属于CNY、USD、EUR的记录。
5.删除“对账状态”列不属于待对账、对账中、已确认、已驳回的记录。
一、需求分析
有一个表格,1000w数据。截取了表头和2行数据如图:
| 对账单ID | 供应商ID | 账期开始 | 账期结束 | 承诺账期天数 | 应付金额 | 税率 | 付款截止日 | 对账状态 | 付款状态 | 币种 | 供应商等级 | 结算备注 |
| RS000000001 | S00000002 | 2024/6/2 | 2024/1/31 | 31 | 20021.18 | 0.04 | 2024/3/2 | 对账中 | 付款审批中 | USD | 一级 | 月结对账正常 |
| RS000000002 | S00000003 | 2024/1/3 | 2024/2/1 | -87 | 20042.36 | 0.05 | 2024/3/4 | 已确认 | 已付款 | EUR | 二级 | 月结对账正常 |
这批表格数据数据有很多异常,比如:
1. “账期结束”时间早于“账期开始”时间。
2. “承诺账期天数” 还小于0 。
等等,我列出了下面几个要清洗的步骤:
1.删除“账期结束”列早于“账期开始”的记录。
2.删除“承诺账期天数”列小于0或大于365天的记录。
3.删除“付款截止日”列早于“账期结束”的记录。
4.删除“币种”列不属于CNY、USD、EUR的记录。
5.删除“对账状态”列不属于待对账、对账中、已确认、已驳回的记录。
描述的都是对某列的准确操作,接下来我们就用工作流进行配置。
二、工作流配置
为了对表格进行清洗,过滤异常数据,我们首先需要获取表格,然后配置”内容清洗“。
找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。
然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。
等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图:

