重复数据很麻烦。你从 CRM 导出客户资料,或从不同供应商拿到产品清单,结果同一个项目出现好几次。你想把数据清干净,但光删除重复行还不够。如果某些行里有库存数量、销售金额呢?这些数字不能丢。你真正需要的是把重复项合并,并把数值相加汇总。
这正是 Datablist Duplicates Finder 的用处。它可以合并重复项,并自动累加你的数字。操作很简单。
想象一下:把多条重复的产品记录合并成一条,同时自动得到总库存数量,只需要给出一句清晰的指令。
这篇教程会一步步演示,如何在合并重复数据时汇总数值:
准备你的数据
在合并和汇总数值之前,你需要先把数据放进 Datablist。我们先创建一个 collection,并导入你的文件。
步骤 1:创建 Collection
在 Datablist 中,collections 用来组织你的数据。你可以把它理解成更智能的 spreadsheet。在侧边栏点击 “+” 按钮,或在首页点击 “Start with a CSV/Excel file” 快捷入口,创建一个新的 collection。
步骤 2:导入文件
你可以从多种来源导入数据。这个示例中,我们使用 CSV 或 Excel 文件。点击 “Import CSV/Excel”,然后上传你的文件。
Datablist 支持大文件处理,所以即使有几十万行数据,也不用担心。
Datablist 会自动识别列类型,例如 Text、Number、Date、Email。
⚠️ 重要提示:请确认你要汇总的列,例如
/Stock,已被正确识别为Number类型。如果没有,你可以在导入过程中手动修改。
步骤 3:检查导入后的数据
导入完成后,快速检查一下 collection,确认行和列都显示正常。此时数据已经准备好,可以开始清洗。
如何查找重复数据
数据导入后,下一步就是找出重复项。
步骤 4:打开 Duplicates Finder
进入顶部菜单中的 “Clean”,选择 “Duplicates Finder”。
步骤 5:选择去重识别字段
你需要告诉 Datablist,应该根据哪些字段判断两条记录是否重复。
选择能唯一识别列表中某个项目的属性。它可以是 Email、Product SKU、Company Name,也可以是多个字段的组合。
在这个示例中,我们假设使用 Product Name 或 SKU 来查找重复的产品记录。
步骤 6:选择匹配算法和 Processor
接下来,选择比较算法。
对于 SKU 或 Email 这类标识符,Exact 或 Smart 通常效果很好。Smart 算法可以处理一些细微差异,比如 URL 协议不同,或词语顺序不同。
你也可以选择一个 Processor,在比较前先对数据进行标准化,例如清洗 email 地址或 URL。
点击 “Run duplicates check”。
步骤 7:预览重复数据组
Datablist 会分析你的数据,并展示可能重复的记录组。在进入合并步骤前,先检查这些分组,确认它们确实是重复项。
合并重复项时如何汇总数值
关键步骤就在这里。我们不使用标准的 “Auto Merge” 选项,而是使用 “AI Processing” 模式,直接给出自定义指令,包括对数值字段求和。
步骤 8:选择 AI Processing 模式
在重复项结果页面,点击 “AI Editing” 按钮。
这个模式允许你用自然语言 prompt 定义自定义合并逻辑。
步骤 9:编写 AI Prompt
这是整个流程的核心。你需要写一段 prompt,说明 Datablist 应该如何合并这些重复数据组。
你的 prompt 需要包含两个关键部分:
- Master Record 选择规则: 告诉 AI 如何选择合并后保留的主记录,也就是 “master”。你可以使用这样的条件:“选择
/Property中日期最新的记录”、“选择信息最完整的记录”,或“选择最早创建的记录”。 - 数值汇总规则: 指示 AI 把组内所有记录中的某个数值字段相加,包括 master 本身,并把总和写回 master 记录的同一个字段。
使用 /PropertyName 或 {{PropertyName}} 来引用 collection 中的列。
下面是一个示例 prompt:在选择 /Date 最新记录作为 master 的同时,把 /Stock 字段求和:
Select the record with the latest date in /Date as master record.
And sum all /Stock values from all records into the /Stock property of the master record.
你也可以补充规则,处理其他属性。例如:
Select the record with the latest date in /Date as master record.
And sum all /Stock values from all records into the /Stock property of the master record.
Merge other properties using the most frequent value.
步骤 10:确认并生成脚本
检查你的 prompt,确保列名引用正确,例如 /Date 和 /Stock。确认无误后,点击 “Generate and preview changes”。
审核并运行 AI 脚本
Datablist 的 AI 不会盲目执行你的指令。它会先根据 prompt 生成一段 JavaScript 脚本,并展示预览结果。
步骤 11:等待处理完成
AI 需要一点时间来理解你的 prompt,并生成对应的脚本。
步骤 12:检查脚本说明
Datablist 会展示生成脚本的说明,告诉你这段脚本会做什么。检查 AI 是否正确理解了你的意图。
步骤 13:检查脚本结果预览
更重要的是,Datablist 会在你真正运行脚本之前,预览脚本将如何影响你的数据。
查看 “Preview” 列表。
它会展示合并和求和后,master 记录的拟更新状态。请确认数值字段,例如 /Stock,是否等于该重复数据组内所有成员的正确总和。
步骤 14:查看带 Master Item 的预览示例
下面是某个具体分组的预览细节。你可以看到,master record 正是日期最新的那条记录,符合我们在 prompt 中设定的规则。
步骤 15:运行脚本
如果预览结果正确,并且汇总数字符合预期,点击 “Run Script”。Datablist 会把这套合并和求和逻辑应用到 collection 中所有已识别的重复数据组。
步骤 16:验证结果
脚本运行完成后,重复记录会按照你的指令完成合并。
回到主 collection 视图。重复行应该已经消失,并被合并后的 master records 替代。
检查你刚才汇总的列,例如 /Stock。它现在应该包含之前重复项目的合计数值。
你的数据现在已经完成清洗、去重,并准确保留了汇总后的数值!🚀
你已经成功使用 AI Processing,不仅合并了重复项,还在过程中完成了求和这类计算,减少大量手工操作,同时保证数据准确性。
常见使用场景
这个由 AI 驱动的求和功能非常灵活。下面是几个特别实用的场景:
- 库存管理: 你从多个供应商或仓库导入产品清单,导致同一产品出现重复记录。使用 AI Processing 合并这些记录,选择最新更新日期的记录作为 master,并汇总所有重复项中的
/QuantityOnHand数值,得到准确的总库存。 - 销售数据合并: 销售数据来自不同地区或平台,同一客户或同一产品在某个周期内可能出现重复记录。你可以基于
CustomerID和ProductID合并重复项,选择最早的SaleDate记录,并汇总/UnitsSold和/Revenue字段,得到统一的销售数据。 - 财务数据汇总: 不同账户或对账单中的交易记录,可能指向同一类支出或收入。你可以基于
TransactionDescription和Date去重,选择描述最详细的记录,并汇总/Amount字段,得到准确的分类总额。 - 项目管理: 不同团队成员更新了同一个项目 milestone,导致任务记录重复。你可以基于
ProjectID和MilestoneName合并,保留最新StatusUpdateDate的记录,并汇总/HoursLogged字段,追踪总投入时间。 - E-commerce 订单合并: 同一个客户订单中,同一产品可能被分开录入成多条 line items。你可以基于
OrderID和ProductID去重,保留一条记录,并汇总/Quantity和/ItemTotal字段。
FAQ
Q1:如果我的数值列没有被识别为 Number 类型怎么办?
在导入过程中,请确保该列设置为 Number 类型。如果它已经作为 Text 导入,你可以在 “Clean” 菜单下使用 “Convert Text to...” 工具,在运行 Duplicates Finder 之前转换为 Number。AI 求和功能要求字段是数值类型。
Q2:我可以在一个 prompt 里汇总多个数值列吗? 可以。你可以在 prompt 中加入多个字段的求和指令。例如:
Select the record with the latest date in /Date as master record.
Sum all /Stock values from all records into the /Stock property of the master record.
Sum all /SalesCount values from all records into the /SalesCount property of the master record.
Merge other properties using the most frequent value.
Q3:如果某些记录的数值列为空,会发生什么? AI 求和流程通常会把空值或非数值内容按 0 处理。它会对指定列中所有有效数字进行求和。
Q4:除了求和,AI 还能做其他计算吗? 可以。AI Processing 很灵活。求和是常见场景,但你也可以让它执行平均值、最大值、最小值等计算,甚至基于多个字段进行计算。不过,prompt 的复杂度也会相应提高。
Q5:使用 AI Processing 会比标准合并更贵吗? “AI Processing” 已包含在所有付费套餐中,并且不限量使用。
Q6:如果 AI 没有正确理解我的 prompt 怎么办? 在运行脚本前,一定要仔细检查预览。如果预览结果不符合预期,就调整 prompt。写得更具体一些,确认列名正确,并清楚说明 master record 的选择规则和求和指令。如果逻辑比较复杂,可以拆成更简单的步骤。你可以多次重新生成脚本,直到预览准确为止。
















