今天,我们以一个“重复数据清洗”的案例为例,对表格中的列执行如下操作:
1. 删除“用户ID”列重复的记录,仅保留第一次出现的记录。一、需求分析
有一个表格,500w数据。截取了表头和部分数据:
| 用户ID | 姓名 | 部门 | 部门路径 | 班组 | 岗位 | 考勤组 | 在职状态 | 入职日期 | 手机号 | 身份证后四位 | 基本工资 | 岗位工资 | 计薪类型 | 备注 |
| EMP0001 | 张晨1 | 生产一部 | 制造中心/生产一部/B班 | B班 | 质检员 | 制造中心标准班 | 在职 | 2024/7/8 | 13812000001 | 3001 | 4680 | 560 | 月薪 | |
| EMP0001 | 李婷2 | 生产二部 | 制造中心/生产二部/夜班组 | 夜班组 | 机修工 | 制造中心标准班 | 在职 | 2025/10/25 | 13812000002 | 3002 | 4960 | 620 | 月薪 |
用户ID本来是唯一的,现在表格有重复的,需要进行删除。
二、工作流配置
挂一个”数据去重“,如图:

输入你要去重的列, 支持多个,多个用逗号分隔就行了。