我可以在几分钟内抓取数百个客户案例,你也可以。

在这篇教程里,我会一步步演示如何高效抓取客户案例,帮你搭建一个可用于 sales、marketing 或竞品分析的高价值 database

完成这篇教程后,你不仅能自动提取客户案例链接,还能抓取客户信息、行业数据和其他关键指标,并把所有内容整理成结构化格式。

整个流程分为 2 个部分,每一步都可以直接照做:

注意: 这篇教程适合从一个网站抓取几十到几百个客户案例。如果你想从多个公司网站各抓取一两个客户案例,请阅读这篇:How to Scrape Case Studies at Scale with AI

从公司网站抓取客户案例链接

第 1 步:创建 Datablist collection

打开 Datablist.com 并注册账号。

Datablist’s home page
Datablist’s home page

创建一个 collection。

Datablist’s starting page
Datablist’s starting page

点击 “See all sources”。

Datablist has over 12 sources and increasing
Datablist has over 12 sources and increasing

选择 “AI Agent - Site Scraper”。

Datablist has multiple AI agents to choose from
Datablist has multiple AI agents to choose from

第 2 步:配置 AI Agent 抓取链接

这一步我们会配置 AI agent,让它从存放所有客户案例的页面中提取全部链接。

先把客户案例列表页的链接提供给它。

Datablist’s AI agent can scrape almost any website
Datablist’s AI agent can scrape almost any website

然后写一个 prompt 来提取链接,也可以直接使用下面的 template

Prompt configuration to scrape case studies with Datablist
Prompt configuration to scrape case studies with Datablist

这是我使用的 prompt:

用于抓取客户案例链接的 Prompt

I want you to extract all links to the case studies on this page

===

Extract only the links that have this structure "https://www.mazak-customers.com/story/story/......"

===

No Introductions
No Explanations
No Thoughts
Only the links that lead to the case study

请务必给 AI 提供一个你想抓取的链接结构示例,比如 www.mazak-customers.com/story/www.salesforce.com/customer-stories/。因为有些网站会同时提供 PDF 版 case study,而这类文件对当前场景通常没有网页链接那么好用。

现在勾选 “Enable Pagination” 左侧的复选框,并设置 AI agent 最多可以访问多少页。

AI agent settings for scraping case studies
AI agent settings for scraping case studies

接着按你的需求配置 outputs,也可以直接复制下面这些值:

  • Output Name: Case Study Link
  • Output Description: The link found on the page
  • Output Type: URL
Output configuration for Datablist’s AI agent
Output configuration for Datablist’s AI agent

然后勾选 “Advanced Settings” 左侧的复选框,并启用 “Website Scraper Option: Render HTML”。

完成后,点击 “Continue” 开始抓取。

Advanced settings for Datablist’s ai agent
Advanced settings for Datablist’s ai agent

当 AI agent 完成客户案例抓取后,你的 collection 看起来会像这样。

结果会在我们命名为 “Case Study Link” 的列中显示客户案例链接,并在 “Page Scraped” 列中显示来源页面。

The case study links we scraped with Datablist’s AI agent
The case study links we scraped with Datablist’s AI agent

现在我们已经从第一个页面抓取了所有客户案例链接,接下来继续从每个客户案例页面中提取正文内容和关键信息。

提取每个客户案例的关键信息

这部分流程会稍微更精细一些,但相比手动复制粘贴,它能节省大量时间。按照下面的步骤操作,你基本就不会踩坑。

这个 workflow 包含以下步骤:

  1. 打开一两个页面,先观察并分析页面结构
  2. 为你想提取的每类信息创建标签
  3. 编写 prompt,给 AI 清晰的指令和示例
  4. 配置你想得到的 outputs
  5. 运行 AI agent,抓取客户案例内容

第 1 步:分析客户案例页面结构

首先,你需要打开刚刚抓取到的一两个页面,明确你想要哪些信息,并观察这些客户案例页面在结构上是否存在固定模式

其次,为每一类你想提取的信息创建一个 tag,给 AI 提供示例,并告诉它在哪里能找到相关信息。这样做之后,AI 给出的结果会稳定很多,也更准确

有时你可以把鼠标悬停在文本上,看看链接里是否包含可用于定义输出格式的细节。比如在我的案例里,“VERSATECH” 就是一个 machine series。

That’s one the case study pages I am about to scrape
That’s one the case study pages I am about to scrape

💡 小提示

提供示例后,输出质量最高可以比不提供示例提升 3 倍

第 2 步:用 AI Agent 抓取案例信息

这一步,我们会配置 AI agent,让它从客户案例页面中抓取信息。开始吧。

首先,重新打开包含客户案例页面链接的 collection。

由于这次 workflow 不需要 “Scraped Page” 列,我们可以先把它隐藏,然后点击 “Enrich”。

Datablist collection with case study links
Datablist collection with case study links

现在进入 “AI”,选择 “AI Agent”。

Datablist’s AI enrichments selection
Datablist’s AI enrichments selection

接下来,复制下面的 prompt template,并根据你需要从客户案例页面提取的信息进行修改

Prompt configuration for scraping case studies with Datablist
Prompt configuration for scraping case studies with Datablist
用于从客户案例页面提取信息的 Prompt

Context: I need some of information that are related to the case study on the web page

===

What I want you to do: Visit the page I am going to give you and extract requested the data points. I'll tell you more about the information shortly

===

The data points you have to look for (with examples):
[Information Tag 1] e.g., [Example 1, Example 2, Example 3]
[Information Tag 2] e.g., [Example 1, Example 2, Example 3]
[Information Tag 3] e.g., [Example 1, Example 2, Example 3]

===

You can access the case study with this link: /Your column

下面是带示例数据的 template prompt:

Context: I need some of information that are related to the case study on the web page

===

What I want you to do: Visit the page I am going to give you and extract requested the data points. I'll tell you more about the information shortly.

===

The data points you have to look for (with examples):

Machine Information:

- Machine Series e.g., VERSATECH, Dual Turn, CV5-500
- Machine Name e.g., VERSATECH V-140N/280, OPTIPLEX 4020 DDL, INTEGREX j-200

Customer’s Information:

- Customer's Industry e.g., Manufacturing, Aerospace, Construction
- Customer's Location e.g., Germany, France, Baltics
- Customer’s Name e.g.,

===

You can access the case study with this link: /Case Study Link

💡 关于 AI Agent 的小事实

AI agent 非常擅长遵循指令,但如果你没有提供清晰示例,它通常不会给出足够好的结果。

使用我们的 template 配置好 prompt 之后,你还需要配置 outputs,具体做法如下:

对于每一类你想提取的信息:

  • 将信息 tag 名称用作 “Output Name”
  • 在 “Output Description” 字段中添加清晰描述,或放入示例
  • 为你想获得的数据选择合适的 “Output Type”
  • 点击 “More” 添加更多 outputs,并用同样方式配置
Output configuration for scraping case studies with Datablist
Output configuration for scraping case studies with Datablist

配置完所有 outputs 后,点击 “Continue to outputs configuration”。

Last step before the columns configuration
Last step before the columns configuration

现在点击所有加号(+)图标,为每个 output 添加一个新列,然后点击 “Instant Run”。

Datablist columns configuration for scraping case studies
Datablist columns configuration for scraping case studies

这些就是抓取客户案例后的结果。

Datablist collection with scraped case studies
Datablist collection with scraped case studies

抓取客户案例常见问题

如何合法抓取网站上的客户案例?

当你抓取的是公开可访问的数据,并且尊重版权限制时,网站 scraping 通常是合法的。

抓取网站客户案例需要哪些工具?

你可以使用 Datablist 这类 web scraping 工具来完成 no-code 抓取。

抓取一个网站的客户案例需要多久?

使用 Datablist 这类工具,你可以在几分钟到几小时内抓取数百个客户案例。只要你理解了网站结构,自动化配置通常只需要 15 到 30 分钟。

我可以抓取任何网站的客户案例吗?

并不是所有网站都允许 scraping。有些网站会使用反爬措施,或在服务条款中明确禁止抓取。

可以从客户案例中提取哪些信息?

你可以提取公司名称、行业、挑战、解决方案、结果、客户证言、日期和关键指标等多种 data points。关键在于识别客户案例在网站上的一致结构,这样才能确保数据提取更准确。