DTBot 的“内容清洗”智能体支持对多个文件(CSV/XLSX)的单元格内容进行灵活清洗,用户只需输入提示词即可完成操作。该智能体专注于“单表、按行按列的数据改造”,特别适用于以下场景:

  • 根据列内容新增列
  • 按条件修改单元格值
  • 规范化字符串内容
  • 删除不符合条件的行
  • 插入、覆盖、重排列
  • 清洗空格、空值、异常值
  • 基于某列计算标签列
  • 统一格式,如日期、手机号、编号文本等

它更像一个“自然语言驱动的轻量级数据清洗工具”,而非传统需手工编写脚本的数据处理方式。


一、配置以及输入输出说明

在工作流编辑界面中,位于左侧 「文件处理」 分类下的 「内容清洗」 节点。如下图:


输入参数

  • 提示词: 清洗的提示词描述。
  • 输入文件: 选填,(CSV/XLSX),支持多个,不填就取上一个智能体的输出文件
  • 输出目录: 选填,清洗后的文件存放位置,不指定就默认在系统工作流目录。


输出

清洗后的CSV文件列表


二、案例

有一个水果销售表,如下:

日期 等级 水果 销售数量 单价(元) 评价分
销售额
1月6日 一般 桃子 444 5 3.91 2220
1月15日 一般 苹果 101 9 4 909
1月25日 一般 西瓜 201 5 2 1005
1月11日 一般 樱桃 280 12 1 3360
1月4日 一般 人参果 198 14 0 2772
1月21日 一般 水蜜桃 335 6 3 2010
1月30日 中等 甘蔗 405 17 6 6885
1月20日 中等 荔枝 236 19 8 4484
1月17日 中等 366 10 3 3660


需要在“水果”列左边新增一列“等级”,当“评价分”大于等于 5 时填“优秀”,大于等于 4 且小于 5 时填“中等”,否则填“一般”。

我们只需要填下下面提示词就可以了,如图:


三、提示词注意事项

编写提示词尽量注意如下情况:

1. 提示词要写清楚: 处理哪一列、做什么动作、满足什么条件、否则怎么处理。

2. 列名尽量用文件里的 真实标题 ,不要自己起简称。

3. 条件尽量具体:如“为空”“大于等于5”“包含退货”。

4. 多步骤可以一起写,但最好 分点写清顺序。

5. 适合做 单表按行按列清洗 ,不适合跨表关联、查数据库、复杂汇总。

6. 不要写“帮我整理一下”“处理一下”这种太模糊的话,越具体越稳定。


下面这些提示词,都是这个工具比较适合处理的真实场景。

1. 在“水果”列左边新增一列“等级”,当“评价分”大于等于 5 时填“优秀”,大于等于 4 且小于 5 时填“中等”,否则填“一般”。

2. 删除“手机号”列中为空的所有行。

3. 把“客户姓名”列和“门店”列的首尾空格去掉。

4. 将“支付方式”列中“wx”“微信支付”“WeChat”统一替换成“微信”。

5. 在“销售额”列右边新增“是否高销售”列,销售额大于等于 5000 填“是”,否则填“否”。

6. 删除“订单号”重复的行,只保留第一次出现的记录。

7. 把“日期”列统一格式化成 YYYY-MM-DD 风格,不合法的日期保留原值。

8. 如果“水果”列为空,就把“备注”列内容填到“水果”列;如果“备注”也为空,则填“未知水果”。

9. 在最后新增一列“风险标记”,如果“退货标记”为“是”或者“评价分”小于 3,就填“高风险”,否则填“正常”。

10. 删除“省份”“城市”“门店”这三列都为空的整行数据。


四、总结

DTBot 的“内容清洗”智能体是一款自然语言驱动的轻量级数据清洗工具,用户只需输入提示词即可对多个 CSV 或 XLSX 文件进行按行、按列的灵活处理,支持新增列、条件修改、格式统一、空值清洗、去重等常见操作,无需编写脚本;使用时需注意列名与文件一致、条件具体、多步骤分点描述,适用于单表清洗场景,不适用于跨表关联或复杂汇总。