无论你是在表格里整理一份地址清单,还是手上有一堆从网页抓取(scraped)的 CSV 数据,最后往往都会变成一列非结构化的地址文本。 把这些 Location 文本拆成结构化字段非常实用:你可以更精准地筛选列表,也能把数据对接到需要“城市/国家/坐标”等分字段的工具或系统。

Datablist 是一款用来 Clean、Normalize 和 Enrich 数据的工具。通过内置的「Location Lookup」enrichment,你可以导入 CSV 或 Excel,并从 Location 输入中提取 City、Country、Latitude、Longitude 等信息。

在这篇 step-by-step 指南里,你会学到:

从非结构化 Location 文本提取城市和国家

Step 1: 导入包含地址列表的 CSV 或 Excel

Datablist 用于整理和 enrich 你的数据。它本质上是一个带“超能力”的在线 CSV editor而且支持单个 collection 扩展到百万级数据。

开始之前,你需要在 Datablist 创建一个账号。

注册完成后,创建一个 collection,然后把包含地址的 CSV 文件导入进来。

创建新 collection 的方式:点击左侧边栏的 + 按钮,然后选择 “Import CSV/Excel” 导入文件。你也可以从新手引导页的快捷入口直接进入导入步骤。

Create a collection
Create a collection

如需帮助,可以查看我们的导入数据文档

Step 2: 配置「Location Lookup」enrichment

导入完成后,你会得到一个 collection,其中至少有一列字段包含非结构化的 location 文本。

你的 location 数据可能是:

  • 单独的 Country
  • 单独的 City
  • City + Country 的组合
  • 完整地址

点击 “Enrichment” 按钮,打开可用 enrichments 列表。

Open Enrichments Drawer
Open Enrichments Drawer

接着选择「Location Lookup」。

Select Location Lookup
Select Location Lookup

enrichment 的工作方式是 “Inputs” + “Outputs”。

  • “Inputs” 是你提供给 enrichment 的数据
  • “Outputs” 是 enrichment 返回并写入到表格里的结果

在配置 “Location” input 字段时,用下拉框选择你的 “Location” 列。只要列名相近,Datablist 会尝试自动匹配 inputs/outputs。

Map Inputs and Outputs
Map Inputs and Outputs

然后配置 “Outputs”:

  • 点击 “+” 自动创建新字段,并与 output 自动绑定
  • 或者从当前 collection 里选择已有字段

Location Lookup」会返回以下 outputs:

  • City - 从 location 中识别到的城市名
  • Country - 从文本中识别到的国家名,或根据城市推断出的国家
  • Country Code - ISO 3266 alpha-2 country code,两位字母国家代码
  • Latitude - 识别到的纬度(城市或完整地址可用时)
  • Longitude - 识别到的经度(城市或完整地址可用时)
  • Processed - 一个 Checkbox,用来标记该条目是否已处理。当「Location Lookup」无法从文本中提取结构化信息时,这个字段尤其有用,方便你避免重复跑 enrichment。

完成 output 映射后,你的 collection 大致会是这样:

Mapped Outputs
Mapped Outputs

Step 3: 运行 enrichment 提取结构化地址信息

Datablist 会对“current items”运行 enrichment,优先级如下:

  • 你选中的 items
  • 你筛选(filtered)后的 items
  • 否则就是整个 collection 的所有 items

配置好「Location Lookup」后,点击 “Run action” 开始处理。Datablist 会按 batch 分批处理。

界面会显示一个计数器,告诉你当前 batch 里还有多少条,以及已处理了多少条。

Processing Data
Processing Data

处理完成后,你的每一行都会自动更新为提取出来的地址结构化信息。

Results of the Location Lookup Enrichment
Results of the Location Lookup Enrichment

Step 4: 如有需要,导出为 CSV 或 Excel

你可以把数据继续留在 Datablist 里做 leads 管理与后续 enrich;也可以点击 “Export” 按钮,把数据导出为 CSV 或 Excel。

Export Data as CSV or Excel files
Export Data as CSV or Excel files

Location Lookup Enrichment 的典型用例

从 LinkedIn location 数据提取 City 与 Country

Datablist 的 Location Lookup 非常适合解析 LinkedIn profile 里的 location 字段。你在 LinkedIn 搜索并构建prospect list时,如果 location 是结构化的,就能更快筛到目标国家/城市的 leads。

把 LinkedIn profiles 导出成 CSV,然后导入 Datablist,对 lead 的 location 批量处理即可。

Normalize LinkedIn Location
Normalize LinkedIn Location

用 Latitude 和 Longitude 坐标筛选地址

做本地营销(local marketing)时,你可能想把距离某个 GPS 点太远的地址排除掉。这时就需要先为地址提取 Latitude 和 Longitude 坐标。

接着点击 “Filters” 按钮,打开筛选弹窗。

Add filter to your address list
Add filter to your address list

如果你要筛出某个 GPS 点附近的记录,可以分别对 LatitudeLongitude 各加两个 filter:一个使用 greater than(大于),一个使用 lower than(小于)。

在数值里输入你希望的坐标范围。一般来说,纬度/经度相差 1 度大约等于 110 公里(实际会因纬度而略有变化)。

Filter Latitude or Longitude coordinates
Filter Latitude or Longitude coordinates

FAQ

Datablist 可以做多少次 location lookup?

Location Lookup」会结合多个服务来返回结构化结果。如果你的输入只有 City 和 Country,且是英文数据,enrichment 会使用内置算法处理请求。这种情况下,没有额外次数限制(唯一限制是你的 credits 数量)。如果你要处理超大列表,欢迎联系我们讨论定价

如果你处理的是包含街道门牌的完整地址,系统会 fallback 到在线服务,例如 Bing Maps、Open Street Map 等。对于超大 collection,这些服务可能会返回限流(throttling)错误。发生错误的请求不会消耗你的 credits。

处理一份 location 列表通常要多久?

单条地址的结构化提取很快,通常不到 1 秒。但如果是大 collection,整体可能需要几分钟。

总耗时取决于你的输入内容:

  • 如果 location 文本只有 City + Country,会走内置算法,速度非常快,几秒就能处理上千条
  • 如果输入是完整地址,Datablist 会对每条数据逐个调用外部 API,速度会慢很多;处理大批量数据可能需要几分钟。如需并行处理(parallel processing),可以联系我们沟通

为什么 output 字段里已有数据时,我无法运行 “Location Lookup”?

为了避免误操作(比如手滑覆盖重要数据),当你的 output 字段已经有值时,Datablist 默认不会覆盖这些字段。

如果你希望覆盖已有数据,只需要勾选 “Overwrite data” 设置。点击 “Gear” 按钮后即可看到该选项。

Overwrite Data
Overwrite Data