零代码,大量 AI。 这就是我们如何把电商网站抓取变得前所未有地简单。
你甚至不需要知道如何高效写 Prompt,因为我们已经准备好了可直接使用的 Prompt 和操作说明,帮助你从任意电商店铺中提取所需的全部商品信息。
话不多说,开始抓取商品吧!
第 1 步:理解电商网站抓取
从电商网站抓取商品,通常有两种方式:
你可以选择:
-
抓取“Collection/Category”页面,从电商网站中提取指定商品 ⬅️ 今天我们会使用这种方法
这是我将用来抓取全部商品的分类页面 -
抓取“All Products”页面,从电商店铺中提取所有商品
“All Products”页面对抓取结果的控制会更少
AI agent 的配置方式基本一样,区别只在于起始页面不同。
第 2 步:准备抓取电商网站
准备工作决定了后面的效率。开始抓取前,我们先完成这 3 件事:
- 准备好你想抓取的电商网站链接
- 注册 Datablist
- 在 Datablist 中创建一个 collection
开始吧!
如果你想在不写代码的情况下抓取电商网站商品,就需要一个支持自然语言操作的工具。Datablist 的 AI Research Agent 就是其中之一。
注册完成后,你需要先把自动化流程搭建好。我会一步步带你完成。
点击加号创建一个新的 collection,或者直接使用快捷键 “N”。
创建新 collection 时,你会看到下面这个界面。我已经提前给我的 collection 改好了名字(还加了一个好看的 emoji)。
准备工作到这里就完成了。接下来进入正式操作。
第 3 步:开始抓取电商网站商品
要开始从电商网站抓取商品,你需要完成 3 件事:
- 选择“AI Agent - Site Scraper”作为数据源
- 粘贴 Prompt,告诉 AI Agent 你的目标是什么
- 为你想抓取的每项商品信息创建对应的输出字段
现在流程已经清晰了——那就正式开始抓取吧!
点击 “See all sources”,开始配置用于抓取的 AI agent。
然后选择“AI Agent - Site Scraper”。
在第一个输入框中,粘贴你要抓取商品的页面 URL。
接着,输入一个 Prompt,告诉 AI agent 你想从这个电商网站抓取哪些信息(你也可以直接使用我下面提供的 Prompt)。
Context: I have an e-commerce site with a listing of products.
===What I want you to do: Visit that site and get me all the displayed products and their information.
===How to do it: Visit the site that I am going to give you the link for and extract all displayed information for each product.
===Important mention about the task: Don't extract any information that isn't linked to a product, e.g. call to actions
===Here's a description of what we are looking for:
- Name of the Product
- Link to the product page
- Original Price of the product in the displayed currency
- Product category: (examples: Nutritionally Complete Instant Meals, Tank tops, Socken)
- Product specification 1: (examples: Compression fit, 40g protein, Premium Füßlinge)
- Product specification 2: (examples: Color, pieces, servings)
- Special Tags: (examples: New, limited edition, last chance etc. Return "None" if there none)
- Absolute link to the product picture
- Discount in % (if available. Return "None" if there's no discount)
Don't return anything what doesn't fall in these data types and return only one piece of information for each type
===Important mention about the data: Not all pages are structured in the same way but the products are all labeled well enough that you should be able to recognize the distinctions between the data point.
接下来,勾选 Enable Pagination,这样 AI scraper 在抓完第一页后,就能自动继续抓取下一页。
现在,你需要为每一种想抓取的商品信息创建一个输出字段/列。
点击 “More” 创建更多输出字段,持续添加,直到每种信息类型都对应一个字段。
如果你希望把商品规格分别保存,建议为每个规格单独创建一个字段。下面是一个示例:
💡 这样做,抓取结果会更准确
给 AI Agents 提供你希望提取的商品规格的明确示例。下面是一个基于 GymShark Tank tops 的例子(见上图)
Product specification 1: Slim Fit
Product specification 2: Black
当你创建好所有需要的输出字段后,点击“Advanced Settings”前面的复选框。
现在你可以:
- 指定用于抓取的模型 ⬅️ 我们推荐 GPT-4o mini,整体“性能 / 价格比”最好
- 选择 AI agent 最多执行多少次迭代。点击这里了解更多:AI agent 是如何工作的
- 开启 “Render HTML” 选项,让 AI Agent 能抓取由 JavaScript 渲染的 eshop 页面 —— 🚨 对于某些电商网站,这个选项至关重要。你可以先不启用;如果第一次抓取没有结果,再重新开启这个选项重跑一次
启用完成后,点击 “Continue”。
然后点击 “Run import now”,开始从你的电商网站列表中抓取商品信息。
下面就是你通过 website scraper AI Agent 获得的结果。
💡 这样做,避免重复数据
选择一个唯一值,例如 product link 或 product name,避免你下次重复抓取同一家店铺时,把相同商品再次导入。这样以后再次运行时,只会新增新商品。— 不过,即使某些商品因为去重而没有被导入,你仍然需要为这些已抓取的数据付费,因为我们只能阻止导入,不能阻止抓取过程本身
下面是具体设置方法 ⬇️
首先,选择你的唯一标识符。以我为例,我会使用 product link,但你也可以根据自己的场景选择其他字段。
然后点击该列的表头,选择 “Rename - Settings - Delete”。
接着勾选“Do not allow duplicate values”,然后点击 “Save Property”。
完成后,你的 collection 中每个商品只会出现一次。即使你多次抓取同一个电商网站,也不会重复导入相同商品。
这时你还会在列标题旁看到一个 key 图标,表示该字段已被设置为唯一标识。
结论
不写代码,也完全可以抓取电商网站和店铺的数据——你只需要使用一个能自动完成这件事的 AI agent。真正需要你重点关注的,其实是 Prompt。你也可以直接使用我们提供的 Prompt,但记得把括号中的示例替换成你自己的商品示例,这样抓取出来的商品信息才会更符合你的实际需求。
可以不写代码抓取电商网站吗?
可以。Datablist 的 AI 支持通过自然语言指令抓取电商网站。你只需要用简单清晰的英文写出要求,AI agent 就会帮你处理底层技术细节。
如何监控电商网站的价格变动?
你可以在 Datablist 中为 AI agent 配置定时任务,自动监控并记录价格变化。agent 会定期检查目标网站,并保存最新的价格更新。
如何从电商网站抓取商品信息?
创建一个 AI agent,明确你要收集哪些数据字段(例如价格、名称、描述等),再提供对应的电商网站 URL。之后 AI 就会自动提取并整理这些信息。
如何一次抓取多个电商网站?
目前还不支持一次同时抓取多个网站,不过你可以创建多个 collection,在 Datablist 中按网站逐个抓取。只要配置好 AI agent 参数,它就会自动帮你抓取对应站点中的全部商品。
网站抓取合法吗?
Web scraping 本身并不违法,但有些网站会在使用条款中明确禁止抓取。因此在实际操作前,建议先查看目标网站的 terms of use。






















