在多个 Excel 文件之间管理重复记录,是一件非常耗时的麻烦事,还很容易造成数据不一致和代价不低的业务错误。

如果没有可靠的去重流程,你可能会给同一个联系人重复发送多封邮件,基于重复数据做出错误的业务判断,还会花很多时间手动比对记录

这篇指南会教你如何用成熟的方法和工具,高效地对多个 Excel 文件进行数据去重。你可以节省时间,保持数据准确性,并减少后续重复数据再次出现的风险。

在本指南中,你将学习如何从结构不同的多个列表中删除重复记录:

Step 1:导入需要去重的文件

注册 Datablist,然后至少导入两个文件。

Datablist 起始页面
Datablist 起始页面

确保你的文件中至少有一个可用于匹配的唯一标识符。

备注:Datablist Duplicates Finder 可以处理任意数量的 Excel/CSV 文件。这些文件的结构可以不同,只要每个列表文件里都有一个可匹配的标识符即可。

文件 A 与文件 B 进行跨文件去重
文件 A 与文件 B 进行跨文件去重

在这个示例中,我选择了潜在客户的 LinkedIn URL 作为唯一标识符。

文件 B 与文件 A 进行跨文件去重
文件 B 与文件 A 进行跨文件去重

唯一标识符不一定要绝对唯一。它也可以是公司名称或名字,只要你把它作为本次匹配的标识字段来使用即可。

Step 2:跨多个列表匹配重复记录

接着,点击 “Clean”,然后选择 “Duplicates finder”。

在 Datablist 中选择 “Deduplicates Finder”
在 Datablist 中选择 “Deduplicates Finder”

备注:你可以从任意一个文件开始操作。流程和结果都是一样的。

设置跨 CSV 文件去重所需的选项。

  1. 点击 "Selected Properties and Multi Collections",然后
  2. 点击 "Check Duplicate Items Across Several Collections"
  3. 选择你要参与去重的 collections,可以选择两个或更多文件,没有数量限制。
如何选择一个或多个 collections 进行跨文件去重
如何选择一个或多个 collections 进行跨文件去重

选择要用于去重匹配的字段。

每个文件中都必须有一个类似的字段。对于每一个用于 deduping 的字段,你都需要在每个 collection 中选择对应的匹配字段。

选择用于去重的字段
选择用于去重的字段

在这个示例中,我会根据 LinkedIn URL,从 "File B" 中移除所有已经存在于 "File A" 里的 prospects。

你可以选择多个字段来进行重复匹配。在这种情况下,记录必须在所有字段上都匹配,才会被视为重复。如果你想查找字段 A 字段 B 上的重复记录,请分两次执行流程,每次针对一个字段。

选择你想使用的比较机制。

对于 IDs(CRM Ids、Internal Ids),我通常使用 "Exact"。对于 URLsEmails 等文本类字段,我会使用 "Smart" 算法,这样在多个文件之间去重时准确率更高。

如果你的 Names 可能存在拼写错误或轻微差异,可以使用距离算法,例如 Levenshtein DistanceJaro-Winkler Distance

可选择的比较机制
可选择的比较机制

选择最符合你去重需求的机制后,点击 “Run duplicates check”。

Step 3:设置重复数据清理操作

通过以下选项设置清理规则:

  • 从 collection X 中删除重复 items
  • 只在 collection X 中保留重复 items(该选项仅在跨 3 个或更多 collections 去重时可用)
设置清理规则
设置清理规则

点击 "Process duplicate items" 继续。

现在,我清理后的文件只包含新的 prospects,没有重复记录。

重要 - 在多个列表之间 deduping 时,算法不会删除单个文件内部的重复项。如果某个文件内部已经存在重复记录,请先分别对每个文件运行去重流程。

去重后的清理文件
去重后的清理文件

这个工作流适合哪些场景

  • 避免重复联系同一个 prospect。
  • 避免联系同一家公司的多个人。
  • 汇总来自不同部门或分支机构的客户数据。
  • 清理并合并来自不同 sales campaigns 的多个联系人列表。
  • 整合来自多个渠道的客户反馈或问卷回复。