DTBot 的「行级清洗器」智能体,支持用户通过自然语言对单个表格文件(CSV / XLSX / XLS)的行内容进行清洗、变换与整理。支持链式描述,可串联多个清洗步骤,一次性完成复杂的数据行处理任务。注意: 只能在行内处理,跨行处理不支持。跨行处理用 “表格清洗” 智能体。

功能特别适用于以下类型的需求:

1. 删除“客户名称”列中的“有限公司”后,再删除前后空格。
2. 将“在职状态”中的“已离岗”替换成“离职”后,再将“在岗”替换成“在职”。
3. 把 “登记日期” 列(格式:2024/09/12)提取出季度。
4. 从“商品规格”中先提取容量信息后,再提取包装数量。
5. 把 “折扣” 列统一转成两位小数。
6. 把 “完成时间”(格式:“2024年9月14日”) 和 “开始时间” (格式:“2024年9月14日”) 计算相差天数。
7. 把 “手机号” 列为空的,用同一行的 “联系方式” 列补。

一、配置以及输入输出说明

在工作流编辑界面中,位于左侧 「文件处理」 分类下的 「行级清洗器」 节点。如下图:

输入参数

  • 提示词: 清洗的提示词描述。
  • 输入文件选填,(CSV/XLSX),支持多个,不填就取上一个智能体的输出文件
  • 输出目录选填,清洗后的文件存放位置,不指定就默认在系统工作流目录。

输出

清洗后的CSV文件列表。


二、功能与案例提示词

1. 字符删除

*****案例提示词*****

1. 删除“客户名称”列中的“有限公司”后,再删除前后空格。

2. 删除“手机号”列中的空格后,再删除横线和括号。

3. 删除“订单编号”列中的 / 后,再删除 - ,最后保留纯编号内容。

4. 删除“身份证号”列中的空格后,再删除末尾多余的换行符。

5. 删除“备注”列中的制表符后,再删除连续空格,最后删除首尾空白字符。

2. 字符替换

*****案例提示词*****

1. 将“客户类型”中的“个人客户”替换成“个人”后,再将“企业客户”替换成“企业”。

2. 将“区域”中的“华东地区”替换成“华东”后,再将“华南地区”替换成“华南”。

3. 将“在职状态”中的“已离岗”替换成“离职”后,再将“在岗”替换成“在职”。

4. 将“身份证号”末位的小写 x 替换成大写 X 后,再将整列中的空白值替换成空字符串。

5. 将“邮箱”中的大写字母替换成小写后,再将中文分号替换成英文分号。

3. 提取到新列

*****案例提示词*****

1. 从“身份证”中提取出生年份和出生月份,分别新增“出生年份”“出生月份”两列。

2. 从“邮箱”中提取 @ 前面的账号名后,再提取 @ 后面的域名。

3. 从“客户地址”中先提取省份后,再提取城市。

4. 从“订单编号”中先提取字母前缀后,再提取数字部分。

5. 从“商品规格”中先提取容量信息后,再提取包装数量。

6. 把 “区间价格” 列里 10-20 拆成最小价和最大价两列。

7. 把 “发货时间” 列(格式:2024/09/12),提取出年份、月份、日期到新列。

8. 把 “订单时间”的“”格式列提取出星期几,只需要显示数字。

9. 把 “登记日期” 列(格式:2024/09/12)提取出季度。

4. 数值处理

*****案例提示词*****

1. 把 “金额” 列里的 ¥ 、 $ 符号删掉,再转成数字。

2. 把 “折扣” 列统一转成两位小数。

3. 把 “重量” 列统一换算成克,像 2kg 转成 2000。

4. 把 “账单金额” 列统一转成元,原来是分的换算一下。

5. 日期时间处理

*****案例提示词*****

1. 把 “下单时间” 列的“%Y/%m/%d”格式统一转成 “yyyy-MM-dd HH:mm:ss”。

2. 把 “月份 ”列里像 2024年3月 规范成 2024-03。

3. 把 “日期” 列中的 今天 、 昨天 、 前天 转成实际日期。

4. 把 “完成时间”(格式:“2024年9月14日”) 和 “开始时间” (格式:“2024年9月14日”) 计算相差天数。

5. 把 “时间描述” 列中的 最近7天 、 最近1个月 转成“yyyy-MM-dd HH:mm:ss”时间格式。

6. 把 “节假日日期” 列(格式:2024/7/8)标记是否周末。

6. 根据条件修改列

*****案例提示词*****

1. 把 “手机号” 列为空的,用同一行的 “联系方式” 列补。

2. 把“ 城市” 为空的,根据 地址 列推断填写。

3. 把 “结束时间”列 为空的,用 “开始时间 ”列加默认时长补齐。

4. 把 “邮箱”列 空值根据 用户名 + 域名 拼出来。

三、提示词注意事项

编写提示词尽量注意如下情况:

1. 必须使用表头中的真实列名。

2. 尽量把单元格处理动作说清楚,例如删除字符、替换字符、提取内容到新列、转数字、转日期、标准化分类、填充空值。

3. 如果有多步处理,建议按顺序分点写,避免一句话里混很多规则。

4. 尽量写清楚原始值长什么样、目标结果要变成什么样,例如把 2024/7/8 转成 2024-07-08 00:00:00 。

5. 如果是提取到新列,尽量写清楚来源列、提取规则和新列名。

6. 如果是数值处理,尽量写清楚是否去掉货币符号、千分位、百分号,以及最终保留几位小数。

7. 如果是日期时间处理,尽量写清楚输入格式、输出格式,以及像“最近7天”“最近1个月”这类时间描述要怎么转换。

8. 如果是分类标准化,尽量把要统一的几种写法说明白,例如把“男、male、M”统一成“男”。

9. 如果有空值、异常值、格式错误值,尽量写清楚是保留为空、置空、跳过还是报错。

10. 如果要新增、删除、重命名列,尽量说明清楚列名和规则,并确认只是改当前行,不涉及别的行。

11. 只能写当前这一行内可以完成的操作,不能写隔行处理、跨行比较、用上一行补下一行、按整列汇总后再改单元格这类规则。

12. 提示词越具体,生成结果通常越稳定。

四、总结

「行级清洗器」适合处理单个表格文件中 每一行内部 的数据清洗与字段变换,例如字符删除、字符替换、提取新列、数值转换、日期处理以及按条件补值等。它的优势是提示词自然、规则可链式组合、一次可完成多步行内清洗,适合做结构化字段整理和标准化处理。

使用时建议尽量写清楚 真实列名、处理动作、输入格式、输出格式、异常值处理方式 ,这样生成结果会更稳定、更符合预期。需要特别注意的是,这个智能体 只支持行内处理,不支持跨行逻辑 ,例如跨行比较、隔行补值、按整列聚合后再改单元格等场景不适用;这类需求请改用「表格清洗」智能体。

如果你的需求本质上是“当前这一行的数据怎么改”,优先使用「行级清洗器」;如果需求涉及“多行之间怎么比较、汇总、排序、筛选、统计”,优先使用「表格清洗」智能体。