手里有一份重复项很多的列表?无论是客户联系人、Email 订阅者,还是产品库存,只要有重复记录,就应该及时清理。否则它们会浪费你的时间和预算。想象一下,同一个客户收到两封完全相同的邮件,这不只是打扰用户,也会影响品牌形象。

好消息是,你可以用 Datablist 免费在线完成列表去重。这是一个简单但强大的在线工具,可以帮你快速删除重复项、清理数据。不需要写代码,也不用折腾复杂流程。

这篇教程会用 3 个步骤教你完成列表去重:

第 1 步:导入含有重复项的列表

用 Datablist 在线去重列表的第一步很简单:先把你的数据导入平台。

Datablist 支持常见列表格式,例如 CSV、Excel。你也可以从外部工具导入数据,比如 Pipedrive

步骤 1:创建一个新的 Collection

你可以把 Datablist 里的 Collection 理解成一张电子表格。开始之前,需要为你要去重的列表创建一个新的 Collection。

点击侧边栏上的 “+” 按钮,新建一个 Collection。

Create a New Collection
Create a New Collection

进入新的 Collection 后,点击 “Import CSV/Excel” 链接。如果你需要更高级的数据集成,也可以点击 “Sources”。

文件上传后,Datablist 会展示数据预览,包括列(在 Datablist 中称为 properties)和部分行。快速检查一下,确认数据结构没有问题。

List Data Preview
List Data Preview

第 2 步:查找列表中的重复项

列表已经准备好了。接下来,我们来找出重复记录。

Datablist 会使用高级算法识别可能重复的记录,即使它们并不是完全一样。

步骤 1:打开 Duplicates Finder

要开始查找重复项,请进入 Datablist Collection 中的 “Clean” 菜单,然后点击 “Duplicates Finder”。

Open the Duplicates Finder Tool
Open the Duplicates Finder Tool

这会打开 Duplicates Finder。你可以在这里告诉 Datablist,应该如何在列表中识别重复项。

步骤 2:选择要比较的字段:Deduplication Properties

“Deduplication property” 指的是 Datablist 用来比较记录、判断是否重复的特定列或字段。

根据列表类型选择合适的字段:

例如:

  • 联系人列表: 对于人员列表,email address 通常是最可靠的比较字段,因为大多数人的邮箱是唯一的。如果不是每个人都有邮箱,也可以使用姓名,或同时使用
  • 产品列表: 如果你有一份产品列表,可以使用产品名称,或者唯一的 product ID(EAN、GTIN、SKU)。
  • 公司列表: 对于公司列表,公司名称website URL 都是不错的选择。

在 Duplicates Finder 中,你需要选择一个或多个 properties 用于匹配。

Select Dedupe Column
Select Dedupe Column

步骤 3:选择匹配算法和 Processor

Datablist 提供了几种不同的数据比较方式,你可以根据需要的严格程度来选择:

  • Exact: 只查找所选字段完全相同的记录。适合识别真正一模一样的条目。
  • Smart: Smart 算法更灵活一些。它可以识别看起来不同但实际相同的值,例如同一个 URL 只是 http 和 https 不同,或文本里有轻微标点差异。
  • Phonetic (Double Metaphone): 这个算法按发音匹配,而不只是看拼写。对于姓名很有用,因为同一个名字可能有不同拼写,但发音相近。
  • Fuzzy Matching (Jaro-Winkler & Levenshtein): Fuzzy matching 会计算两段文本的相似度。你可以设置相似度阈值,让系统识别包含拼写错误、缩写或轻微措辞差异的重复记录。

注意:Exact 算法可供匿名用户使用。Smart 算法需要一个免费账号。Metaphone 和 Fuzzy Matching 算法仅适用于付费套餐

为每个 deduplication property 选择最合适的算法。

你还需要选择合适的 processor,在去重前先对数据进行标准化。这样即使值存在细微差异,也能正确匹配。

Datablist 中常用的 processors:

  • URLs - 移除协议(http、https)、查询参数和 tracking codes,用于匹配等价链接。
    • 示例:https://example.com?utm_source=newsletter → example.com
  • Emails - 忽略 Gmail 地址中的 +filter 这类别名,让不同写法匹配到同一个邮箱。
    • 示例:john+work@gmail.com → john@gmail.com
  • Company Names - 移除法律后缀(Inc.、LLC)、商业词(Partners、Group)和地理词(Europe、USA)。
    • 示例:Acme Inc. → Acme

注意:Company Names processor 仅适用于付费套餐

Use Smart Matching Algorithm
Use Smart Matching Algorithm

对包含多个值的字段进行去重 - 如果你的 deduplication property 包含多个值,请检查 “Multiple Values” 设置。

👉 重要:分多轮完成去重

对大多数列表来说,建议先用 “Smart” 匹配,然后在同一个字段或另一个字段上再跑一轮 “Fuzzy matching”(例如先按邮箱匹配,再按姓名匹配)。

“Smart” 算法找到的重复项,大多数情况下都是真正的重复记录。因此通常可以较快合并,不需要做太多人工验证。

但对于距离算法,可能会出现 “false positives”。两个名字只差一个字母,可能 是同一个实体,也可能不是。所以在审核这些重复分组时,需要更谨慎(后面会讲)。

✅ 专业建议:先使用 Smart Matching,再用 Distance (Fuzzy) Matching 细化结果。

步骤 4:运行去重检查

选好匹配字段和算法后,点击 “Run duplicates check” 按钮,启动去重流程。

Datablist 会扫描你的列表,并根据你的设置,把它认为可能重复的记录归为一组。

步骤 5:审核检测出的重复分组

扫描完成后,Datablist 会显示一组 “Duplicate Groups”。

每个分组都包含两条或多条系统认为是重复项的记录。

在每个重复分组里,你可以看到它们是如何匹配的,以及是否存在冲突值。

Review Duplicate Groups
Review Duplicate Groups

这一步很重要。它可以帮你确认匹配结果是否准确,避免把本来不同的有效记录误归到一起。

注意:如果你只需要重复项列表,可以下载包含 duplicate groups 的 CSV/Excel 文件。每个 duplicate group 都有唯一标识。如果你只需要统计数据,文件中也会包含重复数量。

第 3 步:解决冲突并合并重复项

好了,重复项已经找到了。现在该通过合并来真正完成列表去重

这一步需要先决定如何处理冲突信息,然后把重复记录合并成一条干净、完整的记录。

步骤 1:理解 Duplicate Groups 和冲突值

查看重复分组时,你可能会发现不同记录中的部分信息略有不同。这些被称为 “conflicting values”。

例如,两条重复联系人记录可能有相同的 email address,但电话号码或职位不同。

步骤 2:为冲突值设置合并规则

Datablist 允许你决定在合并重复项时如何处理这些冲突值。你可以设置规则,告诉 Datablist 保留哪个值,或如何组合这些值。

Set Merging Rules
Set Merging Rules

处理冲突有两个选项:

  • Combine Conflicting Values: 如果这些值可以互补(例如多个电话号码、备注),就把它们合并起来。
  • Drop Conflicting Values: 如果你只需要保留其中一条记录的值,并丢弃其他值,选择 “Drop conflicting values...”。

对于 Combine conflicting valuesDrop conflicting values 设置,你可以使用快捷链接,一次性选择所有存在冲突的 properties。

合并多个值的示例:

假设你有两条重复联系人记录:

Record 1: Email: john.doe@example.com, Phone: 555-1234

Record 2: Email: john.doe@example.com, Phone: 555-5678

如果你把 “Phone” property 的合并规则设置为 “Combine values”,合并后的记录会是:

Merged Record: Email: john.doe@example.com, Phone: 555-1234;555-5678

步骤 3:配置 Master Item 规则

合并重复项时,Datablist 会选择其中一条记录作为主记录,并把其他重复记录的信息合并进去。

你可以通过以下规则控制 Datablist 如何选择这个 Master Record:

  • Most Complete: 选择字段填写最完整的记录。
  • Last Updated: 选择最近修改过的记录。
  • First Created: 根据创建日期选择最早创建的记录。
  • Highest Value: 选择某个指定 property 中值最高的记录。如果多条记录值相同,则选择最新的一条。
  • Lowest Value: 选择某个指定 property 中值最低的记录。如果多条记录值相同,则选择最新的一条。
  • Matching Value: 选择在某个指定 property 中包含特定值的记录。如果没有记录匹配,则不会合并。

步骤 4:尽可能自动合并重复项

每次修改合并设置后,点击 “Refresh Preview” 查看这些更改会如何应用。

Refresh Preview
Refresh Preview

设置好合并规则后,如果某些 duplicate groups 已经没有冲突值,Datablist 就可以自动合并它们。

Preview Merging Results
Preview Merging Results

找到 “Auto-merge when possible” 选项并执行合并。

步骤 5:手动合并剩余重复项

对于仍然存在冲突值、需要你人工判断的 duplicate groups,需要手动合并。

Datablist 提供了一个 “Manual Merging Assistant”,会把冲突值并排展示,方便你选择合并后要保留的值。

要使用 Manual Merging Assistant,只需点击某个 duplicate group 对应的按钮。

你会看到该分组中所有记录的数据,可以先选择要保留的值,再点击 “Merge”。

Manual Merging configuration
Manual Merging configuration

步骤 6:完成!检查并导出结果

合并所有重复分组后,花一点时间检查清理后的列表。

Complete the Merge
Complete the Merge

确认去重流程符合你的预期,并且数据已经准确、没有重复项。

然后回到 Collection 数据页面,点击 “Export” 下载清理后的 CSV 或 Excel 文件。

Export the Cleaned List
Export the Cleaned List

你也可以继续使用 Datablist 做日常数据清理。

常见问题 FAQ

Datablist 的去重功能真的免费吗?

是的!你可以免费在线删除列表中的重复项 💰,而且无需注册。

只需要上传文件,就可以开始清理。对于更高级的匹配算法,你可以创建一个免费账号。

只有 fuzzy matching 和 phonetic deduplication 属于付费算法。

Datablist 能处理上万条记录的大列表吗?

当然可以。Datablist 设计之初就是为了高效处理大型列表

无论你有 10,000 条还是 500,000+ 条记录,Duplicates Finder 都可以快速扫描并分组重复项。不需要把数据拆成很多小文件,直接上传并清理即可。

Datablist 支持用 fuzzy matching 识别近似重复项吗?

支持。Datablist 包含 **fuzzy matching algorithms 🔍 **,例如 Levenshtein 和 Jaro-Winkler,可以识别拼写错误和细微差异。例如,它可以匹配:

  • "Jon Smith""John Smith"
  • "Acme Ltd.""Acme Inc"

你可以控制相似度级别,从而微调 threshold,获得更准确的结果。

我可以去重 CRM contacts、leads 或客户数据吗?

可以。把你的 CRM data(来自 HubSpot、Salesforce 或其他工具)导出为 CSV 文件,上传到 Datablist,几分钟内就能删除重复项。清理完成后,你可以使用生成的 Change Files,把更新应用回 CRM,避免手动录入。

如果你使用 Pipedrive,我们还提供用于批量去重的直接集成