每一个基于代码的 Scraper,都是围绕某一个网站的结构写出来的。只要你把同一段脚本拿去抓另一个网站,selector 匹配不上,页面返回空结果,脚本就会报错。

Prompt 不会这样崩掉。 你只要用简单的话说明想要什么,AI Agent 就会重新读取每个页面,而不是依赖写死在某个版式里的规则。

正是这个变化,让你可以不用写代码就抓取几乎任意网站,并在几分钟内拿到干净的数据,而不是花几个小时调脚本。

📌 给赶时间的人看的摘要

核心思路: 你不需要为每个网站准备一个不同的 Scraper。基于代码的 Scraper 被锁定在某一个网站结构里,而 AI Scraping Agent 可以通过一个普通的英文 Prompt 适配不同网站。

本文会解释为什么现在一个工具就能抓取几乎任意网站,然后演示如何用 Datablist 的 AI Scraping Agent 实现。

读完你会知道:

  • 为什么代码和模板型 Scraper 很容易在不同网站上失效
  • AI Scraping 和传统 no-code 方法有什么区别
  • 如何一步步抓取任意网站

本指南会讲什么

不用代码抓取任意网站到底是什么意思

两年前,说“不用代码抓取网站”,通常指的是某个热门网站背后刚好有现成模板。AI 普及以后,这件事已经变了。

现在它的意思更接近字面含义:把工具指向几乎任何公开网页,不写脚本,也能拿回干净、结构化的数据。

为什么过去抓取网站通常需要代码

传统 Scraper 本质上是针对某个网站 HTML 写好的脚本。它会定位特定的 selector、class name 和分页规则,而这些规则只适用于那一个页面。

只要目标页面不变,它通常能跑得不错。但一旦你把同一段脚本用于另一个网站,或者原网站结构调整,匹配就会失败,结果要么是空行,要么是报错。

No-Code Web Scraper 有什么不同

No-code web scraper 把写脚本这一步去掉了。你不需要写代码,而是通过可视化界面或文字说明配置你想要的数据。

大多数人已经听过这类工具,但不同工具之间差异很大。这里可以分成两个子类:

  1. Point-and-click 和模板工具: 你在页面上选择字段,或者加载某个热门网站的现成模板。
  2. AI scraping agents: 你用普通英文描述要抓取的数据,Agent 会自己判断如何提取。

两者都不需要写代码,但只有后者不依赖网站是否热门、页面结构是否可预测。

Scrape Any Website Without Code - No-Code Category Split
Scrape Any Website Without Code - No-Code Category Split

为什么现在可以不用代码抓取任意网站

关键变化来自 AI 读取网页的方式。AI scraping agent 会结合页面内容和你的 Prompt,判断应该提取哪些信息。

这种 AI scraping 方法不再依赖写死的 selector,所以它很有价值:页面布局变化时,没有固定规则会被“打断”,因为 Agent 每次运行都会重新读取页面。

AI Scraping 与传统无代码网站抓取方法对比

No-code 不是一种单一方法。当你要抓取小众网站,或者热门页面改版时,不同方法之间的差异会立刻显现出来。

基于代码的 Scraper:强大,但绑定单个网站

用 Python 或 JavaScript 自己写 Scraper,确实可以获得完整控制权。每个 selector、每条分页规则、每次重试、每个 timeout 都由你决定。

但每段脚本都服务于一个网站,需要开发人员编写,并且会在网站改版时失效。基于代码的 Scraper 执行成本可能很低,但它有另一种成本:每个网站一段脚本、开发人员随时待命、目标页面一更新就要维护。

如果一个团队要抓取很多不同网站,这个成本会很快叠加。五个目标网站,可能就意味着五段脚本,以及每周五个不同的维护点。

Point-And-Click 和模板 Scraper:简单,但怕小众网站

模板工具和 point-and-click 工具是最早真正意义上的 no-code Scraper。它们在热门网站上表现不错,因为已经有人做好模板,或者页面足够简单,可以直接点击选择字段。

真正的问题出现在你要抓取不那么热门的页面时,比如小众目录、本地电商店铺,或者任何不常见的页面布局。这类网站通常没有现成模板。

而且和代码 Scraper 一样,它们仍然依赖页面结构保持不变。网站结构一变,保存的选择就会失效,数据流停止,你又得回头修配置。

AI Scraping:一个 Prompt 适配不同网站

AI scraping 解决了两个问题:

  1. 没完没了的配置
  2. 目标网站结构变化后 Scraper 失效

你只需要描述想要的数据,把 Agent 指向一个 URL,它就会返回结构化行数据。

因为 Agent 会在抓取时实时读取每个页面,同一个 Prompt 可以用于不同网站。产品页、目录页、列表页,工作流都不需要改变。

这正是 Datablist 的 AI Scraping Agent 发挥作用的地方。你提供目标 URL 和一个普通英文 Prompt,就能不用代码抓取几乎任意网站,把原本几小时的工作压缩到几分钟。它也让 data cleaning 更简单,因为抓取的数据会直接进入表格,你可以马上去重和 enrichment。

我们已经从关键指标对比过多种 no-code scraping methods 👈🏽

选择无代码网站抓取工具时要看什么

当你知道 AI Scraper 比“每个网站一个 Scraper”的方式更合适之后,下一步就是判断该信任哪个工具。对我来说,主要看三点:覆盖范围有多广、是否容易失效、运行起来是否简单。

覆盖范围:能处理小众和长尾网站吗

覆盖范围是第一道测试。很多 scraping 工具都说自己能抓取任意网站,但实际上只是依赖一组热门网站的预置模板。

最关键的问题是:这个工具能不能抓取一个它从未见过的网站?

Prompt-driven Agent 可以通过这个测试,因为它完全不依赖模板。如果你的目标包括小众目录或区域性网站,这就是最重要的标准。

一个快速检查方法: 拿你清单里最奇怪的网站试一下,看它能不能抓出来。

维护成本:网站一改版就会坏吗

Scraper 维护通常是没人愿意提前谈的成本变量。selector、分页规则、proxy 都可能在目标网站改版后失效,然后必须有人来修。

绑定固定规则的工具,会把这些工作转嫁给你。每次布局变化都会变成一个小修复任务,而且这种修复几乎不会停止。

Prompt-driven scraping agent 可以避开大部分问题,因为它每次运行都会重新读取页面,而不是信任昨天的 selector。页面变了,Prompt 仍然可以保持不变。

易用性:No-Code Web Scraper 应该有多简单

最后一个测试是:你是否真的可以不靠开发人员自己运行。对招聘、运营或市场团队来说,如果一个通用工具还需要工程师操作,那它就没有太大意义。

从你的实际工作角度判断。你能不能自己写一个简单 Prompt、映射几个字段,然后导出结果?

这就是 Datablist 的 AI Scraping Agent 的设计目标:写 Prompt、配置字段、导出数据。不写代码,不找开发,不为每个网站单独搭配置。

如果你不确定哪个工具适合你的目标网站清单,我们逐项对比了 best no-code scraping tools 👈🏽

抓取任意网站的分步指南

下面进入实操部分。接下来的流程都在 Datablist 里完成。Datablist 是一个用于 AI scraping 和 data enrichment 的 workflow automation platform。

你只需要提供目标 URL 和一个简单 Prompt,它就能在几分钟内从几乎任何网站返回结构化数据。不需要开发人员,也不需要为每个网站单独配置。

在这个 walkthrough 里,我们会做两件事:

  1. 配置抓取任务并运行
  2. 设置唯一属性,避免重复运行时导入同一行数据

如何用 Datablist 的 AI Scraping Agent 抓取任意网站

为了在真实网站上验证“通用”这一点,我们会在一个 GymShark 分类页面上运行 AI Scraping Agent,但所有步骤都可以用在你指定的任何网站上

开始之前,你需要准备好几样东西:

  • 一个 Datablist 账号
  • 你想抓取的页面 URL
  • 明确列出要提取的字段
  • 对容易误读的字段提供示例
  • 一个大致的页面抓取上限

第 1 步:注册并创建 Collection

首先,注册 Datablist.com

Scrape Any Website Without Code - Homepage
Scrape Any Website Without Code - Homepage

然后创建一个 New Collection,用于存放即将抓取的数据。

Scrape Any Website Without Code - New Collection
Scrape Any Website Without Code - New Collection

第 2 步:打开 AI Agent - Site Scraper

在新的 collection 中,点击 See all sources

Scrape Any Website Without Code - See All Sources
Scrape Any Website Without Code - See All Sources

向下滚动,选择 AI Agent - Site Scraper

Scrape Any Website Without Code - AI Agent Interface
Scrape Any Website Without Code - AI Agent Interface

第 3 步:编写 Prompt 并配置任务

把目标 URL 粘贴到第一个字段中。这次我们使用的是 GymShark 分类页面,但你可以抓取任何你想要的网站。

Scrape Any Website Without Code - URL Configuration
Scrape Any Website Without Code - URL Configuration

然后滚动到 Prompt 字段,描述 Agent 应该从每个页面提取什么。你也可以参考下面的 example prompt

Scrape Any Website Without Code - Prompt Configuration
Scrape Any Website Without Code - Prompt Configuration

一个好的 Prompt 会告诉 Agent 要提取什么、忽略什么,以及每一行应该长什么样。你可以复制下面的结构,再替换成自己的字段。

Goal: I want to extract product listings from this website.
.===
What I want you to do: Visit the URL I provide and return one row per product.
.===
Data points to extract:
- Product Name (example: "Classic Cotton T-Shirt")
- Product URL: the absolute link to the product page
- Price: the displayed price in the page currency
- Availability: in stock, out of stock, or unavailable
.===
Mistakes to avoid:
- Return only product data; ignore navigation, ads, and call to actions
- Return "N/A" when a value is missing
- Keep one row per product

当 Prompt 明确写出每个字段并提供示例时,Agent 会更好地执行。过于模糊的 Prompt,是结果混乱最常见的原因。

按照这份 prompt writing rules for AI agents 来写,可以得到更干净的结果 👈🏽

Prompt 写好后,设置你希望 Agent 处理的页面数量。

Scrape Any Website Without Code - Pagination Settings
Scrape Any Website Without Code - Pagination Settings

📘 关于列表页分页

大多数列表页会把结果分散在多个页面。根据你想覆盖的网站范围设置上限即可。Datablist 每次运行最多支持 5,000 个页面。

设置好 Prompt 和页面上限后,向下滚动,继续配置输出字段。

第 4 步:定义输出字段

如果你自己写 Prompt,输出字段应该和你要求提取的数据点保持一致。一个字段对应一列,数据会更干净。

对每个输出字段:

  1. 将数据点名称设置为 Output Name
  2. 添加清晰的 Output Description,必要时给出示例
  3. 选择正确的 Output Type,比如 text、number、URL 或 email
  4. 点击 More 添加更多输出字段
How To Scrape Any Website - Outputs Configuration
How To Scrape Any Website - Outputs Configuration

第 5 步:配置 Advanced Settings

输出字段定义好后,勾选 Advanced Settings,并应用以下设置:

  1. LLM: OpenAI GPT-4o mini,性能和价格之间的平衡最好
  2. Max iterations: 10
  3. Render HTML: 开启。对于用 JavaScript 加载内容的网站,这一点很关键

配置完成后,你的 Advanced Settings 面板应该类似这样。

How To Scrape Any Website - Advanced Settings
How To Scrape Any Website - Advanced Settings

第 6 步:运行抓取任务

当 Prompt、输出字段和设置都准备好后,点击 Continue

Datablist 会为你配置的每个输出创建一个 property。你可以最后检查是否遗漏了任何字段,确认后点击 Run Import Now 开始抓取。

How To Scrape Any Website - Run Import
How To Scrape Any Website - Run Import

几分钟后,行数据会进入你的 collection,可以直接清洗、enrich、去重或导出。

How To Scrape Any Website - Results Overview
How To Scrape Any Website - Results Overview

如果你之后还会重复运行这个抓取任务,先按照下面的步骤设置唯一列,避免重复导入同一行。

避免重复抓取任务产生重复数据

下面演示如何在 Datablist 中设置唯一标识符,避免重复运行抓取任务时产生重复数据。

第 1 步:选择唯一标识符

首先,选择 Datablist 用来识别重复项的列。

例如,如果你抓取的是产品,可以使用 Product URLItem URL 这类稳定值。如果你处理的是公司数据,可以使用 Company DomainBusiness Name

💡 选择稳定的标识符

选择只属于某一行的值。Product URL、item URL、company domain 和 email address 通常比名称更可靠,因为名称可能重复。

第 2 步:打开 Column Settings

点击唯一标识符对应的列头。

然后选择 Rename - Settings - Delete

How To Scrape Any Website - Column Settings
How To Scrape Any Website - Column Settings

第 3 步:禁止重复值

勾选 Do not allow duplicate values

然后点击 Save Property

How To Scrape Any Website - Prevent Duplicate Values
How To Scrape Any Website - Prevent Duplicate Values

第 4 步:检查 Key Icon

保存列之后,Datablist 会在列名旁边显示一个 key icon。

这个图标表示该列现在已经是唯一标识符。

How To Scrape Any Website - Unique Identifier Set
How To Scrape Any Website - Unique Identifier Set

之后,当你再次运行同一个 scrape、source 或 import 时,Datablist 只会添加具有新唯一值的行。这样你在重复执行同一个流程时,也能保持 collection 干净。

总结:别再配置 Scraper,用 Prompt 驱动它

真正的变化不只是某一个工具,而是“页面加普通英文 Prompt”正在取代“每个网站一段脚本”的旧模式。正是旧模式让 web scraping 变得脆弱。现在,同一套 workflow 可以抓取任意网站,不管它是目录、marketplace,还是小众网店。

无代码抓取任意网站常见问题

Datablist 的 AI Scraping Agent 能抓取任意网站吗

它适用于几乎任何公开网站。因为它通过 Prompt 读取每个页面,而不是依赖固定模板,所以能适配从未见过的网站。

Datablist 的 No-Code Web Scraper 有免费试用吗

有。你可以免费开始,创建一个 collection,并免费试用 AI Scraping Agent。

使用 Datablist 的 AI Scraping Agent 需要写代码吗

不需要。你用普通英文描述想要什么,映射几个输出字段,然后运行即可。不需要写脚本,也不用在网站改版后重写规则。这也是 Datablist 能帮你不用代码抓取任意网站的原因。

AI Scraping Agent 可以从网站提取哪些数据

只要页面公开展示,并且你在 Prompt 中要求提取,它就可以抓取:产品名称、价格、URL、库存状态、联系方式、列表信息等。你在 Prompt 和 outputs 中定义字段。注意:如果库存等信息没有显示在公开网页上,Datablist 的 AI Scraper 无法抓取后端信息。

用 Datablist 抓取网站要多少钱

抓取任务按 usage-based credits 计费,也就是按处理量付费。正式大规模抓取前,先做一个小测试,是确认效果和控制成本的最便宜方式。

可以把抓取的数据导出为 CSV 或 Excel 吗

可以。数据进入 collection 后,你可以直接在 Datablist 中清洗、去重、enrich,并导出,包括 CSV 和 Excel。

不用代码抓取网站是什么意思

意思是不用编写或维护脚本,也能从网页中提取结构化数据。你不再编写 selector,而是配置工具,或者通过 Prompt 用普通英文描述想抓取的数据。

真的可以不用代码抓取任意网站吗

如果使用 AI Scraping Agent,你可以不用代码抓取几乎任何公开网站。因为 AI Agent 可以通过一个 Prompt 适配不同页面布局。不过,登录墙和强 anti-bot 保护仍然会在部分网站上带来阻碍。

AI Scraping 和传统 Web Scraping 有什么区别

传统 scraping 运行的是针对某个网站结构写死的脚本。AI scraping 每次运行时都会结合 Prompt 读取页面,所以同一套配置可以适配许多不同网站。

为什么网站布局一变 Scraper 就会失效

Scraper 会定位特定 selector 和页面模式。当网站修改这些结构后,脚本就找不到数据,只能返回空结果或报错,直到有人重新修改它。

什么是 No-Code Web Scraper,它如何工作

No-code web scraper 可以在不编程的情况下提取数据。Point-and-click 工具让你用可视化方式选择字段,而 AI scraping agents 则接收普通英文 Prompt,并替你提取数据。

不用代码抓取一个网站需要多久

取决于你使用的工具。但如果以 Datablist.com 为例,通常只需要几分钟:注册、写 Prompt、映射字段、运行。抓取任务本身通常也会在 5-10 分钟内完成,具体取决于你处理的页面数量。