今天,我们以一个“重复数据清洗”的案例为例,对表格中的列执行如下操作:

1. 删除“用户ID”列重复的记录,仅保留第一次出现的记录。


一、需求分析

有一个表格,500w数据。截取了表头和部分数据:

用户ID姓名部门部门路径班组岗位考勤组在职状态入职日期手机号身份证后四位基本工资岗位工资计薪类型备注
EMP0001张晨1生产一部制造中心/生产一部/B班B班质检员制造中心标准班在职2024/7/81381200000130014680560月薪
EMP0001李婷2生产二部制造中心/生产二部/夜班组夜班组机修工制造中心标准班在职2025/10/251381200000230024960620月薪

用户ID本来是唯一的,现在表格有重复的,需要进行删除。


二、工作流配置

挂一个”数据去重“,如图:

输入你要去重的列, 支持多个,多个用逗号分隔就行了。