无论你是在表格里整理一份地址清单,还是手上有一堆从网页抓取(scraped)的 CSV 数据,最后往往都会变成一列非结构化的地址文本。 把这些 Location 文本拆成结构化字段非常实用:你可以更精准地筛选列表,也能把数据对接到需要“城市/国家/坐标”等分字段的工具或系统。
Datablist 是一款用来 Clean、Normalize 和 Enrich 数据的工具。通过内置的「Location Lookup」enrichment,你可以导入 CSV 或 Excel,并从 Location 输入中提取 City、Country、Latitude、Longitude 等信息。
在这篇 step-by-step 指南里,你会学到:
- 如何把非结构化的 Location 文本拆成结构化数据(City、Country 等)
- 如何从 LinkedIn 的 location 字段提取 City 和 Country
- 如何从一份地址列表提取 Latitude 与 Longitude 坐标
从非结构化 Location 文本提取城市和国家
Step 1: 导入包含地址列表的 CSV 或 Excel
Datablist 用于整理和 enrich 你的数据。它本质上是一个带“超能力”的在线 CSV editor。而且支持单个 collection 扩展到百万级数据。
开始之前,你需要在 Datablist 创建一个账号。
注册完成后,创建一个 collection,然后把包含地址的 CSV 文件导入进来。
创建新 collection 的方式:点击左侧边栏的 + 按钮,然后选择 “Import CSV/Excel” 导入文件。你也可以从新手引导页的快捷入口直接进入导入步骤。
如需帮助,可以查看我们的导入数据文档。
Step 2: 配置「Location Lookup」enrichment
导入完成后,你会得到一个 collection,其中至少有一列字段包含非结构化的 location 文本。
你的 location 数据可能是:
- 单独的 Country
- 单独的 City
- City + Country 的组合
- 完整地址
点击 “Enrichment” 按钮,打开可用 enrichments 列表。
接着选择「Location Lookup」。
enrichment 的工作方式是 “Inputs” + “Outputs”。
- “Inputs” 是你提供给 enrichment 的数据
- “Outputs” 是 enrichment 返回并写入到表格里的结果
在配置 “Location” input 字段时,用下拉框选择你的 “Location” 列。只要列名相近,Datablist 会尝试自动匹配 inputs/outputs。
然后配置 “Outputs”:
- 点击 “+” 自动创建新字段,并与 output 自动绑定
- 或者从当前 collection 里选择已有字段
「Location Lookup」会返回以下 outputs:
- City - 从 location 中识别到的城市名
- Country - 从文本中识别到的国家名,或根据城市推断出的国家
- Country Code - ISO 3266 alpha-2 country code,两位字母国家代码
- Latitude - 识别到的纬度(城市或完整地址可用时)
- Longitude - 识别到的经度(城市或完整地址可用时)
- Processed - 一个 Checkbox,用来标记该条目是否已处理。当「Location Lookup」无法从文本中提取结构化信息时,这个字段尤其有用,方便你避免重复跑 enrichment。
完成 output 映射后,你的 collection 大致会是这样:
Step 3: 运行 enrichment 提取结构化地址信息
Datablist 会对“current items”运行 enrichment,优先级如下:
- 你选中的 items
- 你筛选(filtered)后的 items
- 否则就是整个 collection 的所有 items
配置好「Location Lookup」后,点击 “Run action” 开始处理。Datablist 会按 batch 分批处理。
界面会显示一个计数器,告诉你当前 batch 里还有多少条,以及已处理了多少条。
处理完成后,你的每一行都会自动更新为提取出来的地址结构化信息。
Step 4: 如有需要,导出为 CSV 或 Excel
你可以把数据继续留在 Datablist 里做 leads 管理与后续 enrich;也可以点击 “Export” 按钮,把数据导出为 CSV 或 Excel。
Location Lookup Enrichment 的典型用例
从 LinkedIn location 数据提取 City 与 Country
Datablist 的 Location Lookup 非常适合解析 LinkedIn profile 里的 location 字段。你在 LinkedIn 搜索并构建prospect list时,如果 location 是结构化的,就能更快筛到目标国家/城市的 leads。
把 LinkedIn profiles 导出成 CSV,然后导入 Datablist,对 lead 的 location 批量处理即可。
用 Latitude 和 Longitude 坐标筛选地址
做本地营销(local marketing)时,你可能想把距离某个 GPS 点太远的地址排除掉。这时就需要先为地址提取 Latitude 和 Longitude 坐标。
接着点击 “Filters” 按钮,打开筛选弹窗。
如果你要筛出某个 GPS 点附近的记录,可以分别对 Latitude 和 Longitude 各加两个 filter:一个使用 greater than(大于),一个使用 lower than(小于)。
在数值里输入你希望的坐标范围。一般来说,纬度/经度相差 1 度大约等于 110 公里(实际会因纬度而略有变化)。
FAQ
Datablist 可以做多少次 location lookup?
「Location Lookup」会结合多个服务来返回结构化结果。如果你的输入只有 City 和 Country,且是英文数据,enrichment 会使用内置算法处理请求。这种情况下,没有额外次数限制(唯一限制是你的 credits 数量)。如果你要处理超大列表,欢迎联系我们讨论定价。
如果你处理的是包含街道门牌的完整地址,系统会 fallback 到在线服务,例如 Bing Maps、Open Street Map 等。对于超大 collection,这些服务可能会返回限流(throttling)错误。发生错误的请求不会消耗你的 credits。
处理一份 location 列表通常要多久?
单条地址的结构化提取很快,通常不到 1 秒。但如果是大 collection,整体可能需要几分钟。
总耗时取决于你的输入内容:
- 如果 location 文本只有 City + Country,会走内置算法,速度非常快,几秒就能处理上千条
- 如果输入是完整地址,Datablist 会对每条数据逐个调用外部 API,速度会慢很多;处理大批量数据可能需要几分钟。如需并行处理(parallel processing),可以联系我们沟通。
为什么 output 字段里已有数据时,我无法运行 “Location Lookup”?
为了避免误操作(比如手滑覆盖重要数据),当你的 output 字段已经有值时,Datablist 默认不会覆盖这些字段。
如果你希望覆盖已有数据,只需要勾选 “Overwrite data” 设置。点击 “Gear” 按钮后即可看到该选项。













