在正式清洗数据前,常规流程中通常会先进行一轮数据质量检查,目的是判断当前数据是否可靠。今天,我们以一个“条件范围”的案例为例,对表格中的列执行如下操作:

1.删除“账期结束”列早于“账期开始”的记录。
2.删除“承诺账期天数”列小于0或大于365天的记录。
3.删除“付款截止日”列早于“账期结束”的记录。
4.删除“币种”列不属于CNY、USD、EUR的记录。
5.删除“对账状态”列不属于待对账、对账中、已确认、已驳回的记录。


一、需求分析

有一个表格,1000w数据。截取了表头和2行数据如图:

对账单ID 供应商ID 账期开始 账期结束 承诺账期天数 应付金额 税率 付款截止日 对账状态 付款状态 币种 供应商等级 结算备注
RS000000001 S00000002 2024/6/2 2024/1/31 31 20021.18 0.04 2024/3/2 对账中 付款审批中 USD 一级 月结对账正常
RS000000002 S00000003 2024/1/3 2024/2/1 -87 20042.36 0.05 2024/3/4 已确认 已付款 EUR 二级 月结对账正常


这批表格数据数据有很多异常,比如:

1. “账期结束”时间早于“账期开始”时间。

2. “承诺账期天数” 还小于0 。


等等,我列出了下面几个要清洗的步骤:

1.删除“账期结束”列早于“账期开始”的记录。
2.删除“承诺账期天数”列小于0或大于365天的记录。
3.删除“付款截止日”列早于“账期结束”的记录。
4.删除“币种”列不属于CNY、USD、EUR的记录。
5.删除“对账状态”列不属于待对账、对账中、已确认、已驳回的记录。

描述的都是对某列的准确操作,接下来我们就用工作流进行配置。


二、工作流配置

为了对表格进行清洗,过滤异常数据,我们首先需要获取表格,然后配置”内容清洗“。


找到 ”文件获取“智能体,然后输出提示词,如图:

提示词描述的就是你的待清洗的表格的位置, 可以描述目录,支持多个批量清洗。


然后挂一个”内容清洗“,如图:

提示词描述你要清洗的所有步骤就可以了。 然后执行工作流。

等执行完成后,我们预览清洗后的结果数据,还可以打开目录查看结果文件,如图: