今天给大家带来一个实际的案例分析:“多水果销售表合并评价数据分析”。数据量1000w行,30列。

一、需求分析

有一批水果销售表格(10个,每个文件100w行,30列,占用200MB左右),如下图:


每个表有100w行数据,30列。 每个表的表头如下图:


部分数据:

日期水果销售数量单价(元)销售额门店区域销售员订单号客户等级支付方式是否促销天气温度库存折扣率毛利率成本会员ID渠道仓库供应商批次号SKU编码省份城市时段节假日评价分退货标记
1月6日44452220水果门店六店西南李四ORD20260184071460黑金微信小雨1424360.95810.24VIP317543门店一号仓供应商CLOT785893SKU0147福建深圳晚上3.91
1月15日1019909水果门店六店华北孙七ORD20260175087932金卡会员余额2743600.87090.44445VIP031930直播前置仓供应商BLOT321350SKU0043河南广州下午3.99
1月25日20151005水果门店四店华东李四ORD20260116501947金卡会员余额大雨278590.81440.24VIP212978直播三号仓供应商CLOT340708SKU0111浙江成都中午3.69
1月11日280123360水果门店二店西北周八ORD20260148950125铂金现金大雨2036851.0050.41677VIP894217外卖三号仓供应商ALOT935784SKU0028山东杭州下午3.48
1月4日198142772水果门店六店西北赵六ORD20260116090383黑金支付宝多云338010.97520.57VIP975247直播前置仓供应商ELOT744409SKU0084山东成都上午3.54


现在需要执行如下步骤:

1. 合并子表:将10个表格先合并成一个表格,名称:“总水果销售”。

2. 清理异常:将“总水果销售”表的“水果”列为空的行删除。

3. 新增列:    在“退货标记”列右边新增“等级”列。当 评价分>=5时,取“优秀”,4-5时,取“中等”,否则取“一般”。

4. 分组统计: 统计每个门店,“优秀”次数,“中等”次数,“一般”次数。


统计结果,如图:


二、工作流配置

为了完成需求,我们来详细配置下工作流。

步骤1: 获取表格文件

找到“文件助手”, 写好提示词,描述你的表格的位置。如下图:


这样我们就取得了所有的输入表格原始文件。

步骤2: 合并表格

找到“文件合并”, 填写合并表格的名称。如下图:

通过“文件合并”,就把原始表格合成成了一个大的csv表格文件,名称叫“总水果销售”。


步骤3: 清理异常数据 + 新增列

找到“内容清洗”, 这个是专门对表格的行,列进行操作的智能体,提示词如下图:


我们配置了2个步骤 , 并且描述清除了每个步骤的具体内容。


步骤4: 数据入库

当我们把文件的数据清理好之后,接下来就是统计了,统计需要先进入入库生成表。找到“数据入库”,如下图:


步骤5: 分组统计

找到“表操作”,配置好统计的提示词和输出表名,如下图:


注意提示词里面,一定要描述对哪张表进行统计, 表的名称就是 文件合并你填写的文件名称。

输出表名一定要填写。


步骤6: 数据出库

找到“数据出库”,选择你要出库的表,如下图:


出库后,就会把数据存储到csv文件。


到此,我们工作流就配置完成,跟工作流取一个名称,然后发布就行了。如下图:


三、运行工作流

找到配置的工作流,点击启动:


等待运行结果, 注意,当程序在前台时,运行的速度很快!  如果切换到后台,可能cpu资源分配不足,导致运行速度很慢。


四、获取结果

等待工作流执行完成后,可以在最后一个节点右键,预览结果:


打开目录就可以看到结果源文件了。



五、总结

本案例针对1000万行销售数据,通过6步工作流(文件获取→合并→清洗→入库→分组统计→出库),实现多表合并、异常清理、按评价分划分等级(优秀/中等/一般),并最终统计每个门店各等级的出现次数。注意程序前台运行速度更快,后台可能因资源分配不足而变慢。