Pipedrive 非常适合用来管理 leads 和销售流程。但和任何 CRM 一样,用久了联系人(People)和公司(Organizations)难免会越积越多,重复数据也会跟着堆起来。

Pipedrive 自带的去重工具有明显的限制查看 Pipedrive 合并重复项的全部限制):

  • 它只能识别完全一致的匹配(基于人名/公司名)。比如公司名带法务后缀就匹配不上(Google LLC ≠ Google),也没有 fuzzy matching,更无法用网站、邮箱等字段来做去重。
  • 不支持批量合并重复项。

如果你在 Pipedrive 里遇到 People 或 Organizations 重复的问题,你需要一个更靠谱的方案

这就是 Datablist 的 Duplicates Finder 能派上用场的地方:它可以帮你把 Pipedrive 数据做系统化去重。在这篇指南里,我会带你一步步完成:

  1. 把 Pipedrive 的 People 和/或 Organizations 导入 Datablist
  2. 用高级算法查找并合并重复项
  3. 将合并结果批量同步回 Pipedrive
  4. Pipedrive 内置合并重复项的限制

Step 1: 导入 Pipedrive 联系人

清理 Pipedrive 重复数据的第一步,是先把数据导入 Datablist。这样你就能用到 Pipedrive 本身没有提供的高级去重能力。按下面步骤导入联系人和公司:

1. 新建一个 Datablist Collection

Datablist 的 collection 可以理解成一个在线表格,你在里面存放、清洗和加工数据。每个 collection 可以装你的 Pipedrive 联系人(People)或公司(Organizations)。

  • 想给 People 去重:建一个 People 的 collection。
  • 想给 Organizations 去重:建一个 Organizations 的 collection。
  • 如果两者都要清理:请建两个独立 collection:一个 People,一个 Organizations
Create new collection
Create new collection

2. 选择 “Source → Pipedrive”

Datablist 通过 API 直接连接你的 Pipedrive 账号。

在 collection 里点击 Import → 选择 Source → 选 Pipedrive。你也可以在 collection 起始页点击 “See all sources” 直接进入。

Pipedrive CRM data import
Pipedrive CRM data import

3. 找到你的 Pipedrive API Key

接下来系统会提示你输入 Pipedrive API key。

Pipedrive CRM Api Key
Pipedrive CRM Api Key

要把 Datablist 和 Pipedrive 关联起来,必须用到你的 Pipedrive API key。进入 Pipedrive API Settings 复制个人 API key,然后粘贴到 Datablist。

4. 选择导入 People 或 Organizations

连接成功后,选择你要导入的数据类型:

  • 清理重复联系人:选 People。
  • 清理重复公司:选 Organizations。
Pipedrive CRM Api Key
Pipedrive CRM Api Key

Note: 如果两者都需要处理,请分开导入到两个不同的 collection。
为什么要分开?——Pipedrive 存储 People 和 Organizations 的结构不同,无法混在一起去重。分开处理结果才会更准确。

5. Datablist 会拉取 Pipedrive 的全部字段

选择 People 或 Organizations 后,Datablist 会导入:

  • Pipedrive 标准字段(Name、Email、Phone、Website 等)。
  • 你在 Pipedrive 里自定义的字段。
Pipedrive CRM Fields
Pipedrive CRM Fields
Pipedrive CRM Fields Next
Pipedrive CRM Fields Next

这样你做去重时,所有相关数据都在手上。

6. 运行导入

点击 Import 开始抓取数据。耗时取决于记录数量。

Datablist 会把你的联系人结构化处理,方便后续去重。

Pipedrive Data Import
Pipedrive Data Import

为 URL 调整数据类型

Datablist 的 Duplicates FinderEmailsURLs 等字段有专门的处理器(processor)。如果你的数据里有网站字段,建议把该字段的数据类型改成 URL

Define URL Property
Define URL Property
Select URL Type
Select URL Type

多个邮箱与电话号码

如果某个联系人在 Pipedrive 里有多个邮箱或电话,导入时会被拼到同一个字段里,用分号 ; 分隔。

示例:

  • John Doe 在 Pipedrive 里有两个邮箱:john@company.comj.doe@gmail.com
  • 在 Datablist 里会显示为:Email: john@company.com;j.doe@gmail.com

这样 Datablist 在去重时就能正确处理多值字段。

导入完成后,你的数据就可以开始去重了。接下来,我们用更高级的匹配方式来找重复项。

Step 2: 发现 Pipedrive People 和 Organizations 中的重复项

现在你的 Pipedrive 联系人或公司已经在 Datablist 里了,下一步就是找出重复项。和 Pipedrive 内置工具不同,Datablist 使用高级匹配算法,即使名字有轻微差异、或联系方式不完整,也能识别出疑似重复记录。

具体这样做:

1. 打开 Duplicates Finder 并选择去重字段

在 Datablist collection 中,进入 Clean → Duplicates Finder

Open Duplicates Finder
Open Duplicates Finder

所谓 deduplication property(去重字段),就是 Datablist 用来判断重复的关键字段。选什么字段,取决于你的数据类型:

  • **People:**优先用 Email(最稳定),如果邮箱缺失或不一致,再用 Name
  • **Organizations:**优先用 Website(效果最好),没有网站时再用 Name

💡 例子:

  • “Google” 有两条记录:一条是 Google LLC,另一条是 Google。Datablist 会因为名字相似把它们识别为重复。
Select Properties to use for deduplication
Select Properties to use for deduplication

2. 运行去重(建议分轮次)

为了结果更稳,不要一次性全用同一套规则合并,建议按**迭代(iterations)**来跑:

1️⃣ **第一轮:**People 用 Email,Organizations 用 Website。先抓出最明确的重复项。 2️⃣ **第二轮:**再用 Name(People/Organizations 都适用),补捉那些邮箱不同但其实是同一对象的情况。

🔹 为什么要分两轮?

  • 如果你把 Email + Name 一起当作匹配条件,名字的小差异(如 “John Doe” vs “Johnathan Doe”)反而可能导致匹配失败。
  • 先跑邮箱/网站的严格匹配,可以先把确定的重复项处理掉,减少误合并风险。

多邮箱、电话与公司名字段要特别注意

有些 Pipedrive 字段是多值的(比如 Emails、Phones)。

如果你用 EmailsPhones 这类用 ; 分隔的字段来去重,请在 Datablist 里开启 "Multiple Values" mode。这样当一条记录是 john@company.com; j.doe@gmail.com,另一条只有 john@company.com 时,也能正确匹配。

Email Processor
Email Processor

如果你用 Company Names 去重,Datablist Duplicates Finder 也有专门的 processor,用来处理法务后缀和常见冗余词(clutter words)。

Company Name Processor
Company Name Processor

如果你用网站字段去重,记得使用 URL processor。

3. 查看识别出的重复项与冲突字段

扫描完成后,Datablist 会把重复记录分组展示。

  • 你会看到多个相似 People 或 Organizations 的cluster(簇),我们称为 “Duplicate Groups(重复组)”
  • 每个组都会显示它们的匹配依据(email/name/website),以及是否存在字段冲突。
Duplicates listing
Duplicates listing

3.a. 理解 Duplicate Groups

每个 duplicate group 里包含多条被判定为同一实体的记录。

  • 有些组数据一致或互补,可以自动合并
  • 有些组字段存在冲突,需要你先人工确认。

💡 例子:

  • 两条 “John Doe” 邮箱相同但电话不同,Datablist 会标记它们为重复,并把电话字段提示为 conflicting field(冲突字段)

3.b. 为冲突值设置合并规则

什么是冲突(Conflicts)

当重复联系人在同一个字段上有不同取值时,就会产生冲突。比如两个记录的职位、电话不同。Datablist 会把这些冲突高亮,方便你决定保留哪个。

如何处理冲突

Datablist 提供直观的操作界面,让你可以高效解决冲突,保持数据干净、可信。

  • Combine Values:适合互补信息(例如多个电话、备注),可以合并到一起。
  • Keep One Value and delete the others:如果其中一个记录明显更完整,想舍弃其他记录的冲突值,就选 “Drop conflicting values...”。

对于 Combine conflicting valuesDrop conflicting values 的设置,你可以用快捷入口一键选中全部冲突字段。

Conflicting settings
Conflicting settings

选择 master record(主记录)

你还可以设置 Datablist 如何选择 master record。合并时 Datablist 会保留一条记录作为主记录,更新它的字段,并删除其他记录,最终只留下 1 条。

你可以用以下规则来决定 master record:

  • Most Complete:选择字段填充最多的那条。
  • Last Updated:选择最近更新的那条。
  • First Created:按创建时间选择最早创建的那条。
  • Highest Value:按某个字段的最大值选择;若并列则选最新的一条。
  • Lowest Value:按某个字段的最小值选择;若并列则选最新的一条。
  • Matching Value:选择在某个字段包含指定值的那条;如果没有匹配到,则不会合并。

Datablist 会显示一个预览列表,让你看到将要发生的变化:哪些记录会被删除、哪些字段会被合并等。

当你完成合并设置后,点击 “Refresh” 更新预览。

Update settings
Update settings
Preview changes
Preview changes

🔹 示例:合并两个联系人

下面这个例子展示了合并规则的结果:

  • Name 字段上 Drop Conflicting values。
  • Phone 字段上 Combine Conflicting values。
FieldContact 1Contact 2Merged Result
NameJohn DoeJohnathan DoeJohn Doe
Emailjohn@company.comjohn@company.comjohn@company.com
Phone555-1234555-5678555-1234; 555-5678

3.c. 自动合并重复项

当你对预览结果满意后,点击 “Auto-merge duplicates when possible”。Datablist 会把合并规则应用到所有 duplicate groups 上。

3.d. 下载 Changes File

⚠️ 接下来把合并和更新同步回 Pipedrive 时,你必须用到这个 changes file。

Download changes
Download changes
Export changes
Export changes

Step 3: 将合并结果批量同步回 Pipedrive

现在你已经在 Datablist 里完成了合并。最后一步是把清理后的数据同步回 Pipedrive,让 CRM 里的数据也保持一致。

我们会用到上一步下载的 Changes File(见 3.d. 下载 Changes File)。这个文件记录了哪些记录被合并、哪些重复项需要删除,以及哪些字段被更新。

Changes Log
Changes Log

在这个 Changes Log 里,你会看到:

Updated Records → 被修改过的 People/Organizations(比如合并后的邮箱、电话、名称等),同时保留旧值与新值方便对比。 ✅ Deleted Records → 被合并进 master record 的重复记录。包含被删除记录的 id 和替代它的 master record 的 id这些记录需要在 Pipedrive 里被删除/合并掉。

3.a 把 Duplicates Changes File 导入到一个新 collection

要把这些变更应用到 Pipedrive,先新建一个 collection,然后上传 Changes File。

Import changes
Import changes
Import changes CSV
Import changes CSV
Import success
Import success

这样你会得到一个包含所有合并操作的 collection。

File preview
File preview

3.b 合并并删除重复记录

把这些变更应用到 Pipedrive 的第一步,是让 Pipedrive 把 “deleted” 的记录合并进 “master” 记录

Pipedrive 提供了一个 merge API 来做重复记录合并,我们会用它。

给技术同学的说明:Pipedrive API 的逻辑如下:

  • Organizations 用 /organizations/:id/merge endpoint。
  • People 用 /persons/:id/merge endpoint。
  • 重复记录会被删除,其数据会转移到 master record。

💡 API 请求示例:

PUT https://api.pipedrive.com/v1/persons/{duplicate_id}/merge?api_token=YOUR_API_KEY
{
  "merge_with_id": "{master_record_id}"
}

🔹 为什么要用 Merge API?

  • 能确保所有关联的 deals、activities、notes 继续挂在 master record 上。
  • 不冲突的数据(比如额外的电话/邮箱)会被自动保留

别担心——Datablist 有一个原生 enrichment,会帮你自动调用这个 Pipedrive endpoint。

首先,在 changes file 里筛选出 changedeleted 的行。

然后在 Enrich 菜单中选择 Pipedrive Merge Duplicates

Pipedrive merge
Pipedrive merge

运行 Pipedrive Merge Duplicates enrichment 之前,请确认你的列表里 change 列只显示 “deleted”。

输入你的 Pipedrive API key,并选择要合并的 Pipedrive entity。

Pipedrive merge settings
Pipedrive merge settings

然后在 inputs 里,把 Pipedrive Object Id to Merge 映射到 Previous Pipedrive Person Id 字段。

Pipedrive Object Id to Merge
Pipedrive Object Id to Merge

再把 Pipedrive Object to merge with 映射到 Destination Pipedrive Person Id 字段。

Pipedrive Object to merge with
Pipedrive Object to merge with

然后启动合并流程。

Run process
Run process

你可以在 Datablist 里直接看到进度。

Merge process
Merge process

collection 的每一行都会显示合并状态。

Merge success
Merge success

你也可以去 Pipedrive 看将被删除的那条记录。打开记录页面(People 的 URL 形式是 https://app.pipedrive.com/person/:ID),页面顶部会出现提示。

Merge source
Merge source

在 master record 里,你也会看到合并后的数据。

Merge destination
Merge destination

3.c 同步更新后的记录到 Pipedrive

在上一步,我们用 Pipedrive 的 merge API 把重复记录合并到了 master record。

但问题是:Pipedrive 在合并时会把 duplicate record 的字段值追加到 master record 上,所以你可能会看到多个相似的网站、重复的值等。

因此,我们还需要用 Datablist 合并后得到的“干净版本”数据,去更新 master record,让它回到整洁状态。

在同一个 changes file collection 里,筛选 change 列,只保留 updated

Update Main Record
Update Main Record
Filter Result
Filter Result

然后点击 Export -> Send to external tool

Update Pipedrive
Update Pipedrive

选择 Sync with Persons/Organizations in Pipedrive

Select Export
Select Export

输入 Pipedrive API Key,并选择你要更新的 entity(People 或 Organizations)。

选择 ID 字段,以及你希望用干净值覆盖更新的字段。

Important - 必须选择 ID 字段,才能更新现有记录,而不是创建新记录。

在这个示例里,我只更新 website 字段,所以选择 IDWebsite

Pipedrive Update Settings
Pipedrive Update Settings

在 Inputs 部分,请映射 Destination XX 字段。

Updates Inputs
Updates Inputs

配置 outputs,用来查看更新状态。

Updates Outputs
Updates Outputs

然后运行流程。

你可以在 Pipedrive 记录的 Changelog 列表中查看更新结果。

Updates Results in Pipedrive
Updates Results in Pipedrive

3.d 完成!你的 Pipedrive CRM 现在更干净了

搞定。你已经成功完成: ✅ 把数据导入 Datablist。 ✅ 用智能算法找出并合并重复项。 ✅ 把清理后的数据同步回 Pipedrive。

现在你的 CRM 已经去重并且更有条理,无论是管理销售还是维护联系人都会轻松很多。

Pipedrive 内置合并重复项的限制

Pipedrive 确实提供了基础的去重能力,但它有不少硬伤,很容易让你的 CRM 里依旧残留大量重复项。下面是 Datablist 为什么更适合做去重的原因:

1. Pipedrive 只能找完全一致的匹配

Pipedrive 的重复检测规则非常“死板”,只会匹配名字完全相同的记录。这意味着:

  • “Google LLC” 和 “Google” 不会被识别为重复
  • 邮箱、电话、网站等字段 不会参与去重判断。

✅ **Datablist 优势:**支持 fuzzy matching,即便名字/邮箱/网站存在轻微差异,也能更准确地发现重复项。

2. Pipedrive 不支持批量合并

在 Pipedrive 里,你通常只能一条条手动合并,如果你有几百个重复项,这会非常耗时。

Datablist 优势:****批量合并(Bulk merging),并且可以控制字段如何合并,保证数据更完整、更干净。

3. 合并规则几乎不可控

在 Pipedrive 里合并时:

  • 无法选择哪些字段该保留、哪些字段该合并。
  • 系统选错主记录时,某些信息可能丢失

Datablist 优势:可以自定义合并规则、合并多值字段,并尽量避免丢数据。

4. 没有合并历史或变更记录

Pipedrive 不会清晰记录合并了什么删除了哪些记录。一旦操作失误,几乎没有“撤销”空间。

✅ **Datablist 优势:**提供 Change Log,每一次合并都有记录,改了什么一目了然。

Pipedrive 很适合做销售管理,但在去重这件事上,Datablist 更省时、更可控、更专业。现在就试试,把 CRM 清理得干干净净。