Email list 是任何 email campaign 和 newsletter 管理的起点。但随着多次合并、用户乱填信息或 spam 行为,列表很容易变乱。
清理 email list 的好处包括:
- 提升 deliverability - 每个 email provider 都会根据你的 sender score 判断邮件应该进入收件箱、推广标签页,还是 SPAM。要避免被标记为 SPAM,并让邮件顺利送达用户,第一步就是不要向不存在的地址发信。差的 sender score 很难恢复,所以最好提前花一点时间,把无法送达的 email 地址清掉。
- 节省成本 - 通常你发送的每封 email 都要付费。先清理列表,删除重复和无效地址,可以直接减少成本。然后,再移除 disposable email 地址,只保留真实会被读取的 email。
- 发现并修正拼写错误 - 清理完成后,错误的 email 地址会被标记出来。你可以手动检查姓名或域名里的简单 typo,并修正它们。
Email list cleaning 是所有数字业务都应该定期执行的基础工作。Datablist 是非常适合完成这类清理流程的数据工具。 按照这份分步指南,你将学会:
- 如何删除重复 email
- 如何验证 email 地址语法
- 如何检查 email 是否来自 disposable providers
- 如何判断 email 是否为 business email
- 如何确认 email 域名是否存在
- 如何识别 email provider
- 如何删除 email alias
你可以在不注册的情况下使用 Datablist 查看和编辑 CSV 文件。不过,后面会用到的 email verification service 需要账号。
👉 免费创建账号 👈。
它和付费 email cleaning services 相比怎么样?
如果你在 Google 上搜索 email verification services,会看到几百个,甚至几千个工具。几乎所有工具都会按 email 地址收费。Datablist 内置 email verification service,并且可以免费使用。 它很适合简单的 email 验证场景,也足够好用。但如果你需要更深入的分析,或者要验证几十万条 email,建议使用付费 email cleaning service。
第 1 步:导入 email 地址
创建 collection
email 清理流程的第一步,是在 Datablist 中创建一个 collection,用来放入你的 email 地址。
在 Datablist 中,点击 + 创建新的 collection。给它起个名字,也可以加一个 icon 😍。
导入你的 email list
现在你已经有了一个 collection,就可以导入 email list 了:无论你只有一个列表,还是有多个列表需要合并,都可以处理。
Datablist 提供两种导入数据的方式:
- 使用 CSV 文件
- 从 spreadsheet 复制粘贴
选项 1:从 CSV 文件导入
CSV 格式是一种简单的标准格式,用来在不同软件之间传输表格数据。几乎所有 newsletter 工具和数字营销软件都支持把联系人导出为 CSV 文件。CSV 文件在 Datablist 中是一等公民。
也可以查看我们的指南:如何通过唯一标识符合并 CSV 文件 和 如何删除 CSV 重复项。
在这个示例中,我们会使用一个 demo contact CSV 文件,包含三列:First Name、Last Name、Email。点击这里下载 demo 文件。
要导入 CSV 文件,点击 "Import CSV" 按钮并选择你的文件。
Datablist 支持读取 CSV 文件和 Excel 文件。系统会先读取前几行,用来检测文件编码。如果检测到的表头出现乱码,或者导入后看到奇怪字符,可以新建一个 collection,并尝试用其他编码重新导入 CSV。
Datablist 会读取列信息,并显示一个 mapping 页面。如果你的 email 地址有效,数据类型会被识别为 Email。这会在后续编辑数据时为你添加一些验证规则。
下面是完整流程的视频:
选项 2:通过 Copy/Pasting 导入
Datablist 支持从任意 spreadsheet 复制粘贴数据。只需选中 spreadsheet 中的单元格,进入你的 Datablist collection,然后使用浏览器里的 Edit -> Paste,或直接使用 Ctrl + v 快捷键。
粘贴后,Datablist 会展示它检测到的列和行。要导入某一列,可以把它映射到已有 property,或创建一个新的 property。
Warning: 只有完成 mapping 的列才会被导入!
如有需要,导入其他联系人列表
如果你的 email collection 来自多个来源,只需要把所有列表导入同一个 collection。
导入另一个文件时,系统会显示 mapping 步骤。在这一步,你需要把 collection properties 与 CSV columns 对应起来。完成 mapping 后,新数据会被添加到已有 properties 中。
第 2 步:查找并合并重复 email
email list 通常是长期积累出来的。结果往往是多个 email 列表被合并到一起。于是就出现了重复项! 如果你的列表还保存了 First Name、Last Name 等联系人信息,这些信息可能分散在多条重复记录里。
当所有 email 地址都集中到一个地方后,第二步就是删除或合并重复记录。
在 Clean 菜单中点击 "Duplicates Finder" 按钮,使用 Datablist 的 "Duplicates Finder" 功能。
在配置页面中,你需要选择重复项的检测方式:
- All Properties - 查找完全相似的 items:当两个 items 的所有 properties 都匹配时,它们会被视为相似。
- Selected properties - 当两个 items 在所选 properties 上匹配时,它们会被视为相似。
在我们的示例中,如果两个联系人使用同一个 email 地址,就认为它们是重复联系人。因此,选择 Selected Properties 模式,并选择 Email property。
运行重复项检查后,你会看到 collection 中所有重复项的预览。
如果发现重复项,可以执行以下操作:
- 合并或整合重复 items
- 删除重复 items
- 编辑它们
Datablist 提供自动算法来去重你的数据。更多信息请查看我们的 deduplication 文档。
自动合并后,再用手动合并助手完成清理。要合并重复联系人,点击每组重复联系人左侧的 "Merge Items" 按钮。
Datablist 提供一个合并工具。右侧显示的是 "Primary Item",左侧剩余的重复联系人称为 "Secondary Items"。Datablist 会把数据最完整的联系人选为 "Primary item"。
在可能的情况下,secondary items 中的 property values 会被自动选中,并合并到 primary item 中。如果多个值发生冲突,你需要手动决定保留哪个值。
如果最终的 "Primary item" 符合预期,点击 Merge 按钮确认合并。所有 secondary items 都会被删除,只保留一条合并后的 item。
处理完所有重复项后,回到 collection。
完整流程可以看这个视频:
第 3 步:免费清理 email list
现在,你已经在 Datablist 中拥有一个包含所有 email 地址且没有重复项的 collection。接下来就可以开始清理了。
Notes
你必须注册后才能使用 email verification service。 注册账号(免费)。如果你已经有一个 anonymous collection,可以把它导入到你的 workspace。
这个服务会检查什么?
Datablist 内置免费的 email verification service。这个免费服务会做 5 项分析:
- Email 语法分析
- Domain MX records 检查
- Disposable providers 检查
- 返回 email provider 名称
- 判断 email 地址是 Business Email,还是来自通用 provider(Gmail、Yahoo 等)
Email 语法分析
第一项检查会确认 email 是否符合 IEFT standard,并进行完整的语法分析。
这项分析会标记缺少 @ 符号、域名无效等问题地址。
检查 domain MX records
第二项检查用于判断域名是否可以接收 email。有效的 email 地址必须对应一个已配置 MX records 的域名。这些 MX records 指定了负责接收该域名邮件的 mail server。缺少 MX records 通常意味着 email 地址无效。
对于每个 email 地址的域名,服务都会检查 DNS records,并查找其中的 MX 记录。如果域名不存在,该 email 会被标记为 invalid。如果域名存在但没有有效的 MX record,也会被标记为 invalid。
检查 disposable providers
第三项检查用于检测临时 email。服务会查找属于 Disposable Email Address(DEA)providers 的域名,例如 Mailinator、Temp-Mail、YopMail 等。
当前数据库包含约 3000 个 disposable provider domains,并会基于这个 disposable domains list定期更新。
返回 email provider 名称
当你运行 Free Email Validator enrichment 时,会看到一个关键结果:"MX Provider" 输出字段。这个字段会基于 MX records 告诉你,哪个 email service 负责处理某个域名的邮件。
Email provider 可能是:google、microsoft、amazon 等。
查看 enrichment 文档了解更多信息:Free Email Validator。
检查 email 地址是否为 business email
Datablist 的 "Email Address Validation" enrichment 还会返回另一项信息:这些 email 地址是 business email,还是 generic email。
Business email 地址使用公司域名,例如 elon@tesla.com。当你在构建 lead lists并做联系人分层时,识别 business email 有助于 lead scoring。
Datablist 维护了一份 generic email providers 列表。它会把每个 email domain 与这份列表进行比较。当域名不属于 generic email providers 列表时,该 email 地址会被标记为 "Business Email"。
在 collection 中执行清理
在 Datablist 中执行 email list cleaning 很简单。点击 "Enrich" 菜单,然后选择 "Email Address Validation" enrichment。
选择 "Email Address Validation" 后,右侧会打开一个 drawer,用来配置 enrichment。
配置分为 2 步:
- 配置
Settings和Input Properties - 配置
Output Properties,定义 enrichment 结果保存在哪里
Settings 和 Input Properties
Settings
在 settings 中选择 "Check for MX-records in email domain",用于分析 MX records。
Input Properties
选择 collection 中包含 email 地址的 property。在这个示例中,collection 有一个 "Email" property,会被用来匹配。
👉 点击 "Continue to outputs configuration" 进入第 2 步。
Output Properties 和 Run Settings
"Email Address Validation" enrichment 会返回 4 个值:
- Valid Email - 一个 Checkbox(
true或false),表示 email 地址是否有效。 - Error status - 当 "Valid Email" 为
false时,用文本说明 email 地址为什么无效。 - Business Email - 一个 Checkbox,用来判断 email 地址是 Business Email,还是来自 generic email provider。
- Domain - 返回 email 中 @ 后面的域名部分。示例:gmail.com
- MX Provider - 返回 email provider。示例:google、microsoft、ovh 等。
- Processed - 一个 Checkbox,用来标记某个 item 是否已经处理过。它可以帮助你筛选 email list,避免对同一批 email 地址重复运行 enrichment。
⚠️ 你必须配置 output properties,把结果保存到 collection 中的新 properties,或映射到已有 properties。
如果你是第一次运行这个 enrichment,点击每个 output property 上的 + 按钮,把结果 properties 添加到 collection。
将要创建的 properties 会显示在列的右侧。
当 outputs 已经映射到用于保存结果的 properties 后,点击 "Run on first 10 items"。在对所有 items 运行 enrichment 之前,Datablist 会先处理前 10 个 items。这样更容易从最初结果中发现错误或无效配置。
如果结果正确,点击 "Run the enrichment on all items" 继续处理全部数据。
下面是流程视频(这是旧版 Datablist,email verification enrichment 现在可从 "Enrich button" 访问):
服务完成后,检查所有 invalid emails,找出容易修复的 typo。
查找并删除 email alias
Google Gmail 和 Microsoft Outlook 等服务允许用户通过在 email 用户名后添加 +something 来创建 alias email 地址。
例如,Gmail 地址 john@gmail.com 和 john+saas@gmail.com 会指向同一个 inbox。
每个 alias 都是有效地址,也能通过验证测试,但它仍然会影响你的营销成本和 deliverability score。
下面是从联系人列表中移除多余 alias email 地址的步骤。
首先,筛选所有包含 + 字符的 email 地址。
然后,在 "Clean" 菜单中打开 Find & Replace tool。
选择 Match using regular expression 选项,并在你的 Email property 上搜索。输入以下搜索 pattern:
^(?<first>(\w|-|~)*)\+(\w)*(?<last>(@.*))
然后在 "Replace with" 中输入这个字符串:
$<first>$<last>
这个 Regular Expression 会从 email 地址中删除 +string。
然后你可以移除筛选器,并在 email 地址数据库上再次运行 Deduplication Algorithm。查看上方如何对联系人列表去重。
Deduplication 步骤会在存在非 alias 版本时删除多余的 email 地址;如果某个 alias 是唯一地址,则会保留它。
第 4 步:移除已退订 email
最后这一步是可选的。你可能有一个专门保存所有已退订 email 的列表,并希望把这些地址从主列表中移除。如果你的退订列表中有类似这样的列:
email | Unsubscribed
xxx@xxx.com | yes
xxx@xxx.com | yes
xxx@xxx.com | yes
你可以执行 join operation,把 Unsubscribed 信息添加到联系人列表中。
做法是:把第二个 CSV 文件导入并执行 join operation 到同一个 collection 中。
共同的 property 是 Email property。你需要基于 Email property 执行 "join operation"。
在导入包含已退订 email 地址的 CSV 文件时,创建一个新的 property 来保存 "Unsubscribed" 列(在 mapping 时点击 "+")。
如果还没有完成 mapping,把 "Email" 列映射到 "Email" property。然后在它上面启用 "Join on property"。
下一步,你需要配置 Datablist 如何在 CSV 文件上执行 join operation。
- Import all rows and match when possible - 如果 Unsubscribed 文件中的某个 email 地址不存在于你的 collection 中,会创建一个新的 item。
- Import only matching rows - 这里推荐选择这个选项。如果 Unsubscribed 文件中的某个 email 地址不存在于你的 collection 中,该 email 地址会在导入时被跳过。
"Merging Mode" 用于定义如何合并冲突数据。当你更新 collection,并且已经有一个需要更新的 "Unsubscribed" property 时,它会很有用。
导入完成后,新的 "Unsubscribed" property 会出现。你可以按这个 property 筛选,并删除对应的 contact items。
额外步骤:导入时自动合并重复项
要在导入过程中预防并自动合并重复项,可以在 Email property 上勾选 "do not allow duplicate values" 选项。启用这个 property option 后,Datablist 会在数据导入时自动 deduplicate 并合并你的联系人。
在 import stepper 中,系统会显示一个 merging option,用来配置 Datablist 如何处理重复项。
当你的列表除了 email 地址,还包含联系人信息时,merging option 非常重要。
- 使用
Soft Merge时,如果存在相同 email 的联系人,它不会用旧数据更新 properties(旧数据指 collection 中已有联系人,或 CSV 中找到的第一个联系人)。这是默认设置。 - 使用
Hard Merge时,如果存在相同 email 的数据,它会更新这些数据。
如果你对这份指南有任何反馈,或还有问题,请联系我们。



























