DTBot 的“内容清洗”智能体支持对多个文件(CSV/XLSX)的单元格内容进行灵活清洗,用户只需输入提示词即可完成操作。该智能体专注于“单表、按行按列的数据改造”,特别适用于以下场景:
- 根据列内容新增列
- 按条件修改单元格值
- 规范化字符串内容
- 删除不符合条件的行
- 插入、覆盖、重排列
- 清洗空格、空值、异常值
- 基于某列计算标签列
- 统一格式,如日期、手机号、编号文本等
它更像一个“自然语言驱动的轻量级数据清洗工具”,而非传统需手工编写脚本的数据处理方式。
一、配置以及输入输出说明
在工作流编辑界面中,位于左侧 「文件处理」 分类下的 「内容清洗」 节点。如下图:

输入参数
- 提示词: 清洗的提示词描述。
- 输入文件: 选填,(CSV/XLSX),支持多个,不填就取上一个智能体的输出文件。
- 输出目录: 选填,清洗后的文件存放位置,不指定就默认在系统工作流目录。
输出
清洗后的CSV文件列表
二、案例
有一个水果销售表,如下:
| 日期 | 等级 | 水果 | 销售数量 | 单价(元) | 评价分 |
销售额 |
| 1月6日 | 一般 | 桃子 | 444 | 5 | 3.91 | 2220 |
| 1月15日 | 一般 | 苹果 | 101 | 9 | 4 | 909 |
| 1月25日 | 一般 | 西瓜 | 201 | 5 | 2 | 1005 |
| 1月11日 | 一般 | 樱桃 | 280 | 12 | 1 | 3360 |
| 1月4日 | 一般 | 人参果 | 198 | 14 | 0 | 2772 |
| 1月21日 | 一般 | 水蜜桃 | 335 | 6 | 3 | 2010 |
| 1月30日 | 中等 | 甘蔗 | 405 | 17 | 6 | 6885 |
| 1月20日 | 中等 | 荔枝 | 236 | 19 | 8 | 4484 |
| 1月17日 | 中等 | 梨 | 366 | 10 | 3 | 3660 |
需要在“水果”列左边新增一列“等级”,当“评价分”大于等于 5 时填“优秀”,大于等于 4 且小于 5 时填“中等”,否则填“一般”。
我们只需要填下下面提示词就可以了,如图:

三、提示词注意事项
编写提示词尽量注意如下情况:
1. 提示词要写清楚: 处理哪一列、做什么动作、满足什么条件、否则怎么处理。
2. 列名尽量用文件里的 真实标题 ,不要自己起简称。
3. 条件尽量具体:如“为空”“大于等于5”“包含退货”。
4. 多步骤可以一起写,但最好 分点写清顺序。
5. 适合做 单表按行按列清洗 ,不适合跨表关联、查数据库、复杂汇总。
6. 不要写“帮我整理一下”“处理一下”这种太模糊的话,越具体越稳定。
下面这些提示词,都是这个工具比较适合处理的真实场景。
1. 在“水果”列左边新增一列“等级”,当“评价分”大于等于 5 时填“优秀”,大于等于 4 且小于 5 时填“中等”,否则填“一般”。
2. 删除“手机号”列中为空的所有行。
3. 把“客户姓名”列和“门店”列的首尾空格去掉。
4. 将“支付方式”列中“wx”“微信支付”“WeChat”统一替换成“微信”。
5. 在“销售额”列右边新增“是否高销售”列,销售额大于等于 5000 填“是”,否则填“否”。
6. 删除“订单号”重复的行,只保留第一次出现的记录。
7. 把“日期”列统一格式化成 YYYY-MM-DD 风格,不合法的日期保留原值。
8. 如果“水果”列为空,就把“备注”列内容填到“水果”列;如果“备注”也为空,则填“未知水果”。
9. 在最后新增一列“风险标记”,如果“退货标记”为“是”或者“评价分”小于 3,就填“高风险”,否则填“正常”。
10. 删除“省份”“城市”“门店”这三列都为空的整行数据。
四、总结
DTBot 的“内容清洗”智能体是一款自然语言驱动的轻量级数据清洗工具,用户只需输入提示词即可对多个 CSV 或 XLSX 文件进行按行、按列的灵活处理,支持新增列、条件修改、格式统一、空值清洗、去重等常见操作,无需编写脚本;使用时需注意列名与文件一致、条件具体、多步骤分点描述,适用于单表清洗场景,不适用于跨表关联或复杂汇总。