Clutch 是获取 agency 数据的优质目录之一。问题在于,抓取 Clutch 并没有想象中那么简单。
它没有导出功能,而且目录页采用分页并通过动态加载展示内容。 很多 Chrome 扩展抓完一页就失效,point-and-click scraper 也依赖 CSS selector,而 Clutch 一更新页面布局,这些 selector 往往就会失灵。
这篇指南会带你一步步了解,如何使用 Datablist 的 AI Scraping Agent 抓取 Clutch 上的 agency 列表,并最终整理成可导出的高质量 lead list。从配置到导出,全程无需写代码、无需复杂设置,12 分钟内就能完成。
📌 给赶时间的读者的速览总结
本文会告诉你,如何用 AI scraping 从 Clutch 抓取 agency 数据。
问题: Clutch 上有非常有价值的 agency 信息(如名称、评分、官网、价格区间),但平台本身没有导出按钮。手动复制粘贴效率太低,而大多数 scraper 在 Clutch 这种动态页面上又很容易失效。
解决方案: 使用 Datablist 的 AI Scraping Agent,配合现成可用的 Clutch 模板,几分钟内提取 agency leads。
你将学到:
- 为什么 Clutch 数据对 lead gen 很有价值,以及传统 scraper 为什么经常抓不动
- 你可以从 Clutch 目录页提取哪些 agency 数据字段
- 一个完整的 5 步流程:抓取、导出、清洗并 enrich 你的 agency 名单
为什么选 Datablist:
- AI scraping 像真人一样理解页面内容,所以即使 Clutch 更新布局也能正常工作
- 自动处理 pagination(单次最多可抓取 5,000 页)
- 无需代码、无需 API 配置,只要一个 URL 加一个模板即可
本文会讲什么
- 为什么大家会抓取 Clutch,以及这件事为什么没看上去那么简单
- 你可以从 Clutch 提取哪些 agency 数据
- 如何抓取 Clutch 上的 agencies:完整步骤
- 抓取之后:清洗并 enrich 你的 agency 名单
- Clutch 抓取做不到什么:限制与最佳实践
- 关于抓取 Clutch 的常见问题
为什么大家会抓取 Clutch,以及这件事为什么没看上去那么简单
用于 Lead Gen 和 Outreach 名单
Clutch 本质上就是一个经过筛选整理的 agency 数据库,几乎涵盖你能想到的所有服务类别:SEO、PPC、网页设计、移动开发、品牌设计等等。
对 lead gen 团队来说,这意味着现成可用的 prospect list。 你可以按服务类型、地区和公司规模筛选,所需数据就在页面上,只是没法直接导出。
这也是为什么 Clutch 数据特别适合做 outreach:
- 地区数据: 可以更轻松地做特定地域的营销活动,不用靠猜
- 服务类别: 让你精准锁定自己的目标细分市场
- 公司规模: 规模更大的 agency 通常预算也更高
如果你的目标客户是 agencies、你要建立合作伙伴名单,或者要筛选供应商,那么你就需要一种可规模化抓取 Clutch agency 数据的方法。
为什么手动抓取和 Chrome 扩展在 Clutch 上经常失效
在进入具体方案之前,先看看为什么那些“看起来最直接”的做法通常并不好用。
| 方式 | 问题 |
|---|---|
| 复制粘贴 | 只适合很小规模的名单。手动复制名称和网站,很快就会变得非常痛苦。 |
| Chrome 扩展 scraper | 在动态页面上容易漏数据,遇到滚动加载或分页时也经常失效。 |
| Point-and-click scraper | 需要 CSS selector,所以 Clutch 一改版,抓取规则就会失效。 |
看完上表你会很快发现,AI web scraping 是抓取 Clutch agency 数据最高效的方法。Datablist 的 AI Scraping Agent 不依赖底层技术细节,而是像真人一样理解页面内容。因此,即使页面布局变化,它也能在无需自定义配置的情况下继续工作。
你可以从 Clutch 提取哪些 agency 数据
在开始抓取之前,先明确哪些数据字段是能拿到的,以及哪些字段最值得收集。
每份 Lead List 都该有的核心字段
这些是几乎每个 Clutch 目录卡片上都会展示的基础字段。它们构成了任何 agency lead list 的底层骨架:
- Agency Name - Clutch 上显示的公司名称(例如 “WebFX”)
- Clutch Profile URL - 指向该公司 Clutch 页面 的直接链接(适合作为 deduplication 的唯一标识)
- Location - 城市和国家(例如 “London, United Kingdom”)
- Service Category - 目录页显示的主要服务类别(例如 “SEO”)
有了这些字段,你就已经拥有一份可用的 lead list。下面这些字段会让名单质量更高。
能显著提升名单质量的高价值字段
当你从 Clutch 抓取 agency leads 时,以下字段可以帮助你在 outreach 之前先完成筛选,避免把时间浪费在不匹配的对象上:
- Rating - Clutch 的认证评分(例如 4.9/5)
- Number of Reviews - agency 获得的认证评价数量(例如 47 条 reviews)
- Hourly Rate Range - 他们的定价区间(例如 “$100 - $149/hr”)
- Minimum Project Size - 他们接受的最低项目金额(例如 “$10,000+”)
- Company Size - 员工规模(例如 “50-249”)
为什么这些字段重要: 如果你销售的是每月 200 美元的工具,你更希望联系已经比较成熟的 agency,而不是刚起步的新公司。
如何抓取 Clutch 上的 agencies:完整步骤
这个 source 接收一个 URL 和一个 prompt,然后通过 AI 抓取 Clutch 的 agency 列表。费用会根据实际使用量变化,因为 AI Scraping Agent 采用按使用量计费的 credits 机制。
我前面说 Datablist.com 很容易上手,这不是客套话。整个流程只有 5 步,简单说就是点几下鼠标。在开始之前,请先确认你已经准备好:
- 想抓取的 Clutch 目录 URL(最好已经按类别和地区筛选好)
- 对要提取的 agency 数据字段有一个大致想法
如果你更喜欢看视频,这里有一个演示:我如何在 12 分钟内抓取 508 家 agency 👈🏽
抓取 Clutch Agencies:分步教程
下面这部分会带你走完整个抓取流程。由于我们已经提供了现成模板,所以你几乎不需要额外配置什么。
第 1 步:注册并创建 Collection
首先,注册 Datablist.com
然后,创建一个 New Collection
第 2 步:进入 AI Scraping Agent
- 点击 See all sources
- 向下滚动并选择 AI Agent - Site Scraper
现在你会看到一个不同的界面,大致如下:
第 3 步:选择模板并配置任务
- 点击 Template Drop-Down,选择 “Clutch Agency Scraper”
- 在粘贴 URL 之前,先到 Clutch 上按你想要的 服务类别和地区进行筛选(例如 “London 的 SEO agencies”)。复制筛选后的目录 URL,并粘贴到第一个输入框中。
- 继续向下滚动,设置你要抓取的页数
📘 关于 Clutch 的 Pagination
Clutch 每页大约显示 15 个 agency 卡片。如果你抓的是 “London 的 SEO agencies”,并且结果共有 20 页,那就把 pagination 设置为 20。对于更宽泛的搜索(例如全球范围内的所有 SEO agencies),页数可能达到数百页。Datablist 的 AI Scraping Agent 会自动处理 pagination,单次最多可抓取 5,000 页。
如果你想进一步了解 AI scraping prompt,我们还写过一篇指南,专门讲 如何为 AI agents 编写 prompts
- 继续向下滚动,点击 Continue
💡 点击 Continue 之前,先检查 Advanced Settings
请确认以下设置已启用:
- LLM: OpenAI: GPT 5 mini(AI scraping 中性能与价格平衡最好的选择)
- Max iterations: 10
- Website Scraper Option: Render HTML(Clutch 通过 JavaScript 动态加载 agency 卡片,因此这个设置非常关键)
第 4 步:选择输出字段
Datablist 会自动创建输出属性。
点击 X Icons,删除那些你不想添加到 collection 中的列。
第 5 步:运行
完成以上设置后,点击 Run Import Now 开始抓取。
几分钟后,你的 collection 就会填充好来自 Clutch 的 agency 数据。接下来,你可以使用 Datablist 的workflow automation 功能来清洗、去重、enrich 并导出数据。
💡 重复运行时避免重复数据
如果你之后还打算再次抓取同一个 Clutch 类别(比如获取新增 agency、更新评分等):
- 选择一个唯一标识列(Clutch Profile URL 是最推荐的)
- 点击列标题,依次选择:Rename - Settings - Delete
- 勾选:Do not allow duplicate values
- 点击:Save Property
这样再次运行 scraper 时,就只会新增新 agency,而不会重复导入已有数据。再配合 Datablist 的 workflow automation,你的 Clutch 抓取流程基本就能实现 autopilot。
如何导出你的 agency 名单
抓取完成后,导出只需要大约 10 秒:
- 点击顶部菜单中的 Export
- 选择 Export all items
- 选择你需要的文件格式(.CSV、.XLSX 或 .VCF)
- 点击 Export
现在,你的 agency 名单已经可以直接用于 CRM、outreach tool 或 spreadsheet 中。
抓取之后:清洗并 enrich 你的 agency 名单
抓取 Clutch 只是第一步。真正的价值,来自你后续如何处理这些数据。 一份包含重复项、缺少邮箱的原始名单,并不能真正帮你成交。
去重并标准化公司名称
这是每次抓取完成后最该优先处理的事情,原因很简单:
同一家 agency 可能会出现在多个 Clutch 分类中。 比如你分别抓取 “London 的 SEO” 和 “London 的 PPC”,那么同时提供这两类服务的 agency 就可能出现两次。
你可以这样清洗:
- 按 Clutch Profile URL 去重,而不是按 agency 名称去重
- 移除后缀,例如 LLC、Ltd、Inc。可使用 Datablist’s Company Name Normalizer
Enrich 联系方式和公司数据
当你的名单已经清洗干净后,还可以继续往下做:
- 使用 Datablist 的 Waterfall Email Finder 查找邮箱地址
- 为每家 agency 的决策者 补充 LinkedIn profile URL
- 如果你卖的是与特定平台集成的工具,还可以 补充 tech stack 数据
重要: 一定要先做 deduplication,再做 enrich。否则重复行会浪费 credits,也会让数据变得更混乱。
如果你打算给这些抓到的 agencies 发送 Cold Emailing,这里有一篇文章介绍 如何用 AI 做个性化 outreach 👈🏽
Clutch 抓取做不到什么:限制与最佳实践
抓取 Clutch 被允许吗?
简短回答:抓取网站上公开可见的数据,通常是允许的。 Clutch 上的数据对所有访问网站的人都是可见的。
不过,更关键的往往不是“能不能抓”,而是“你拿这些数据做什么”:
- 你可以为内部用途抓取 Clutch 上的 agencies(例如 lead generation、研究、供应商筛选)
- 在大多数司法辖区,你不能把抓来的数据作为独立产品进行转售
如果你是把这些数据用于自己的 outreach 或内部研究,通常没有问题。
Scraper 在 Clutch 上失败的常见原因
即使用的是 AI scraping,实际操作中也可能遇到问题。下面是最常见的情况以及解决办法:
- 页面很重,且内容动态加载。 Clutch 通过 JavaScript 加载卡片,所以 “Render HTML” 这个设置非常关键。没有它,agent 看到的可能只是一个空页面。
- Pagination 的边界情况。 某些筛选结果的页数显示并不稳定。建议至少抽查前 5 行数据,并与 Clutch 实时页面对照,确认抓取结果一致。
- “Request too large” 错误。 当页面内容超出 model 的 context window 时,就可能出现这个问题。如果你看到这个报错,请在 advanced settings 中把模型从 GPT 4.0 mini 切换到 GPT 5。 虽然每次请求成本会稍高一点,但它处理大页面时更稳定。
总结:抓取 agency 只是第一步
现在你已经知道,如何通过 AI scraping 从 Clutch 抓取 agency leads、选择合适的输出字段、处理 pagination,并把结果导出为干净的 CSV。但如果只有 agency 名称、没有联系人信息,这还算不上真正的 lead list。
只需两步,就能把名单补完整:
如果这些方法还不完全适合你的场景,也可以继续查看下方资源。
关于抓取 Clutch 的常见问题
抓取 Clutch 上的 agencies 要花多少钱?
Datablist 的 AI Scraping Agent 采用按使用量计费的 credits 系统。每个 Clutch 页面消耗多少 credits,会取决于 agent 抽取了多少家 agency,以及完成任务需要多少次 iterations。Datablist 套餐起价为每月 25 美元,包含 5,000 个免费 credits。如果还需要更多,可以购买 top-up pack,20 美元起可获得 20,000 credits,批量购买最高可享受 35% 折扣。
抓取 Clutch 上的 agencies 需要多久?
如果你抓取的是一个经过筛选的 Clutch 目录,共 10 到 20 页(约 150 到 300 家 agency),通常需要 5 到 10 分钟。更大的任务如果覆盖 50 页以上,通常需要 15 到 20 分钟。首次配置大约要 3 分钟,之后重复运行只需要几秒。
我能抓取多少家 agency?有上限吗?
Datablist.com 每个 collection 最多支持 100,000 行数据,而 AI Scraping Agent 单次运行最多可抓取 5,000 页(具体取决于你选择的 LLM model)。对于绝大多数 Clutch 抓取场景来说,这已经足够覆盖你的目标类别和地区下的所有 agencies。
抓取 Clutch agencies 时可以提取哪些数据?
在目录卡片层级,你可以提取:Agency Name、Website URL、Clutch Profile URL、Location(城市、国家)、Service Category、Rating、Number of Reviews、Hourly Rate Range、Minimum Project Size,以及 Company Size。若想获取 profile 页面级别的数据(如公司介绍、联系人、portfolio),则需要进一步访问单独的详情页。
抓取 Clutch 需要写代码吗?
完全不需要。整个流程都是 no-code。你只需要选择模板、粘贴 URL、选择输出字段,然后点击运行即可。如果你会复制粘贴 URL,Datablist 就能帮你抓取 Clutch。
我能否同时找到这些 agency 的邮箱?
可以。抓取完成后,你可以使用 Datablist 的 Waterfall Email Finder,为每家 agency 的决策者查找已验证的邮箱地址。你也可以借助同一平台上的其他 enrichment 工具,补充 LinkedIn profiles 和 电话号码。
不用 API 也能抓取 Clutch 吗?
当然可以。Datablist.com 不要求任何 API 设置、编码工作或技术配置。整个流程都通过可视化界面完成,并提供现成模板,不需要开发人员参与。
AI Web Scraping 和传统 Web Scraping 有什么区别?
传统 scraper 依赖固定规则,例如 CSS selector 或 XPath。一旦网站布局发生变化,scraper 就容易失效。而 AI web scraping 则像人一样读取页面内容,理解的是“意义”,而不是“结构”。即使 HTML 结构变了,评分依然还是评分。 这也是为什么在需要抓取目录网站(例如 Clutch)时,AI scraping 往往更稳,也更适合长期使用。
如何对来自多个 Clutch 类别的 agencies 去重?
使用 Datablist 内置的 deduplication 功能即可。请按 Clutch Profile URL 去重,而不是 agency 名称,这样才能识别那些同时出现在多个服务类别下的公司。你也可以在重复运行前,直接在 Clutch Profile URL 列上设置 “no duplicate values” 规则。
做 outreach 时,应该从 Clutch 收集哪些字段?
最少建议收集:Agency Name、Website、Location 和 Rating。如果想让 outreach 更有针对性,建议再加上:Hourly Rate、Min Project Size、Company Size 和 Reviews Count。这样你就能在联系之前,先按预算匹配度和可信度做筛选。
什么是 AI Web Scraping?
AI web scraping,也就是 AI scraping,是一种利用人工智能从网站提取数据的方法,而不是依赖基于规则的 scraper。它不需要依赖固定的 HTML selector,而是通过语言模型理解页面内容,并提取你要求的数据。像 Datablist.com 这样的平台,就通过 AI Scraping Agents 和现成模板提供这类能力。
可以把 Clutch 上的 agency 数据导出成 CSV 吗?
Clutch 本身不提供原生导出功能。但借助 Datablist.com,你可以抓取 agency 列表,并一键把结果导出为 .CSV、.XLSX 或 .VCF。导出功能既支持完整 collection,也支持筛选后的视图。















