重复数据很麻烦。你从 CRM 导出客户资料,或从不同供应商拿到产品清单,结果同一个项目出现好几次。你想把数据清干净,但光删除重复行还不够。如果某些行里有库存数量、销售金额呢?这些数字不能丢。你真正需要的是把重复项合并,并把数值相加汇总

这正是 Datablist Duplicates Finder 的用处。它可以合并重复项,并自动累加你的数字。操作很简单。

想象一下:把多条重复的产品记录合并成一条,同时自动得到总库存数量,只需要给出一句清晰的指令。

这篇教程会一步步演示,如何在合并重复数据时汇总数值:

准备你的数据

在合并和汇总数值之前,你需要先把数据放进 Datablist。我们先创建一个 collection,并导入你的文件。

步骤 1:创建 Collection

在 Datablist 中,collections 用来组织你的数据。你可以把它理解成更智能的 spreadsheet。在侧边栏点击 “+” 按钮,或在首页点击 “Start with a CSV/Excel file” 快捷入口,创建一个新的 collection。

Create a new collection in Datablist
Create a new collection in Datablist

步骤 2:导入文件

你可以从多种来源导入数据。这个示例中,我们使用 CSV 或 Excel 文件。点击 “Import CSV/Excel”,然后上传你的文件。

Datablist 支持大文件处理,所以即使有几十万行数据,也不用担心。

Import CSV or Excel file
Import CSV or Excel file

Datablist 会自动识别列类型,例如 Text、Number、Date、Email。

⚠️ 重要提示:请确认你要汇总的列,例如 /Stock,已被正确识别为 Number 类型。如果没有,你可以在导入过程中手动修改。

步骤 3:检查导入后的数据

导入完成后,快速检查一下 collection,确认行和列都显示正常。此时数据已经准备好,可以开始清洗。

Check imported data in the collection
Check imported data in the collection

如何查找重复数据

数据导入后,下一步就是找出重复项。

步骤 4:打开 Duplicates Finder

进入顶部菜单中的 “Clean”,选择 “Duplicates Finder”。

Start the Duplicates Finder tool
Start the Duplicates Finder tool

步骤 5:选择去重识别字段

你需要告诉 Datablist,应该根据哪些字段判断两条记录是否重复。

选择能唯一识别列表中某个项目的属性。它可以是 EmailProduct SKUCompany Name,也可以是多个字段的组合。

在这个示例中,我们假设使用 Product NameSKU 来查找重复的产品记录。

Select the properties to identify duplicates
Select the properties to identify duplicates

步骤 6:选择匹配算法和 Processor

接下来,选择比较算法。

对于 SKU 或 Email 这类标识符,ExactSmart 通常效果很好。Smart 算法可以处理一些细微差异,比如 URL 协议不同,或词语顺序不同。

你也可以选择一个 Processor,在比较前先对数据进行标准化,例如清洗 email 地址或 URL。

Select matching algorithm and processor
Select matching algorithm and processor

点击 “Run duplicates check”。

步骤 7:预览重复数据组

Datablist 会分析你的数据,并展示可能重复的记录组。在进入合并步骤前,先检查这些分组,确认它们确实是重复项。

Preview the detected duplicate groups
Preview the detected duplicate groups

合并重复项时如何汇总数值

关键步骤就在这里。我们不使用标准的 “Auto Merge” 选项,而是使用 “AI Processing” 模式,直接给出自定义指令,包括对数值字段求和。

步骤 8:选择 AI Processing 模式

在重复项结果页面,点击 “AI Editing” 按钮。

这个模式允许你用自然语言 prompt 定义自定义合并逻辑。

Select the AI Processing mode
Select the AI Processing mode

步骤 9:编写 AI Prompt

这是整个流程的核心。你需要写一段 prompt,说明 Datablist 应该如何合并这些重复数据组。

你的 prompt 需要包含两个关键部分:

  1. Master Record 选择规则: 告诉 AI 如何选择合并后保留的主记录,也就是 “master”。你可以使用这样的条件:“选择 /Property 中日期最新的记录”、“选择信息最完整的记录”,或“选择最早创建的记录”。
  2. 数值汇总规则: 指示 AI 把组内所有记录中的某个数值字段相加,包括 master 本身,并把总和写回 master 记录的同一个字段。

使用 /PropertyName{{PropertyName}} 来引用 collection 中的列。

下面是一个示例 prompt:在选择 /Date 最新记录作为 master 的同时,把 /Stock 字段求和:

Select the record with the latest date in /Date as master record.
And sum all /Stock values from all records into the /Stock property of the master record.

你也可以补充规则,处理其他属性。例如:

Select the record with the latest date in /Date as master record.
And sum all /Stock values from all records into the /Stock property of the master record.
Merge other properties using the most frequent value.

步骤 10:确认并生成脚本

检查你的 prompt,确保列名引用正确,例如 /Date/Stock。确认无误后,点击 “Generate and preview changes”。

Final prompt ready for script generation
Final prompt ready for script generation

审核并运行 AI 脚本

Datablist 的 AI 不会盲目执行你的指令。它会先根据 prompt 生成一段 JavaScript 脚本,并展示预览结果。

步骤 11:等待处理完成

AI 需要一点时间来理解你的 prompt,并生成对应的脚本。

Wait for AI script generation
Wait for AI script generation

步骤 12:检查脚本说明

Datablist 会展示生成脚本的说明,告诉你这段脚本会做什么。检查 AI 是否正确理解了你的意图。

Review the generated JavaScript
Review the generated JavaScript

步骤 13:检查脚本结果预览

更重要的是,Datablist 会在你真正运行脚本之前,预览脚本将如何影响你的数据。

查看 “Preview” 列表。

它会展示合并和求和后,master 记录的拟更新状态。请确认数值字段,例如 /Stock,是否等于该重复数据组内所有成员的正确总和。

Check the preview of the script results
Check the preview of the script results

步骤 14:查看带 Master Item 的预览示例

下面是某个具体分组的预览细节。你可以看到,master record 正是日期最新的那条记录,符合我们在 prompt 中设定的规则。

Example preview showing the summed value in the master item
Example preview showing the summed value in the master item

步骤 15:运行脚本

如果预览结果正确,并且汇总数字符合预期,点击 “Run Script”。Datablist 会把这套合并和求和逻辑应用到 collection 中所有已识别的重复数据组。

Run the generated script
Run the generated script

步骤 16:验证结果

脚本运行完成后,重复记录会按照你的指令完成合并。

回到主 collection 视图。重复行应该已经消失,并被合并后的 master records 替代。

检查你刚才汇总的列,例如 /Stock。它现在应该包含之前重复项目的合计数值。

你的数据现在已经完成清洗、去重,并准确保留了汇总后的数值!🚀

View the final cleaned data with summed values
View the final cleaned data with summed values

你已经成功使用 AI Processing,不仅合并了重复项,还在过程中完成了求和这类计算,减少大量手工操作,同时保证数据准确性。

常见使用场景

这个由 AI 驱动的求和功能非常灵活。下面是几个特别实用的场景:

  • 库存管理: 你从多个供应商或仓库导入产品清单,导致同一产品出现重复记录。使用 AI Processing 合并这些记录,选择最新更新日期的记录作为 master,并汇总所有重复项中的 /QuantityOnHand 数值,得到准确的总库存。
  • 销售数据合并: 销售数据来自不同地区或平台,同一客户或同一产品在某个周期内可能出现重复记录。你可以基于 CustomerIDProductID 合并重复项,选择最早的 SaleDate 记录,并汇总 /UnitsSold/Revenue 字段,得到统一的销售数据。
  • 财务数据汇总: 不同账户或对账单中的交易记录,可能指向同一类支出或收入。你可以基于 TransactionDescriptionDate 去重,选择描述最详细的记录,并汇总 /Amount 字段,得到准确的分类总额。
  • 项目管理: 不同团队成员更新了同一个项目 milestone,导致任务记录重复。你可以基于 ProjectIDMilestoneName 合并,保留最新 StatusUpdateDate 的记录,并汇总 /HoursLogged 字段,追踪总投入时间。
  • E-commerce 订单合并: 同一个客户订单中,同一产品可能被分开录入成多条 line items。你可以基于 OrderIDProductID 去重,保留一条记录,并汇总 /Quantity/ItemTotal 字段。

FAQ

Q1:如果我的数值列没有被识别为 Number 类型怎么办? 在导入过程中,请确保该列设置为 Number 类型。如果它已经作为 Text 导入,你可以在 “Clean” 菜单下使用 “Convert Text to...” 工具,在运行 Duplicates Finder 之前转换为 Number。AI 求和功能要求字段是数值类型。

Q2:我可以在一个 prompt 里汇总多个数值列吗? 可以。你可以在 prompt 中加入多个字段的求和指令。例如:

Select the record with the latest date in /Date as master record.
Sum all /Stock values from all records into the /Stock property of the master record.
Sum all /SalesCount values from all records into the /SalesCount property of the master record.
Merge other properties using the most frequent value.

Q3:如果某些记录的数值列为空,会发生什么? AI 求和流程通常会把空值或非数值内容按 0 处理。它会对指定列中所有有效数字进行求和。

Q4:除了求和,AI 还能做其他计算吗? 可以。AI Processing 很灵活。求和是常见场景,但你也可以让它执行平均值、最大值、最小值等计算,甚至基于多个字段进行计算。不过,prompt 的复杂度也会相应提高。

Q5:使用 AI Processing 会比标准合并更贵吗? “AI Processing” 已包含在所有付费套餐中,并且不限量使用。

Q6:如果 AI 没有正确理解我的 prompt 怎么办? 在运行脚本前,一定要仔细检查预览。如果预览结果不符合预期,就调整 prompt。写得更具体一些,确认列名正确,并清楚说明 master record 的选择规则和求和指令。如果逻辑比较复杂,可以拆成更简单的步骤。你可以多次重新生成脚本,直到预览准确为止。