Cero código, mucha IA. Así hemos hecho que el scraping de sitios e‑commerce sea más fácil que nunca.

Ni siquiera necesita saber cómo escribir buenos prompts, porque le damos un prompt y las instrucciones para extraer todos los productos que necesite de cualquier tienda online.

Basta de palabras, ¡vamos a scrapear productos!

Paso 1 – Entender el scraping en sitios e‑commerce

Hay dos formas de scrapear productos en sitios e‑commerce:

Puede:

  1. Scrapear páginas de "Collection/Category" para extraer productos seleccionados de un sitio e‑commerce ⬅️ Este es el método que usaremos hoy

    Esta es la página de categoría que usaré para scrapear todos los productos
    Esta es la página de categoría que usaré para scrapear todos los productos
  2. Scrapear las páginas de "All Products" para extraer todos los productos de una tienda

    Las páginas de "All products" dan menos control sobre lo que se extrae
    Las páginas de "All products" dan menos control sobre lo que se extrae

La configuración del AI Agent es la misma; solo cambian los puntos de partida.

Paso 2 – Preparar el scraping de sitios e‑commerce

La preparación es la mitad del éxito, ¿verdad? Esto haremos antes de scrapear:

  1. Reunir los enlaces de los sitios e‑commerce que desea scrapear
  2. Registrarse en Datablist
  3. Crear una collection en Datablist

¡Empecemos!

Para scrapear productos sin código, necesita una herramienta que lo permita en lenguaje natural. Una de ellas es el AI Research Agent en Datablist.

Página de inicio de Datablist
Página de inicio de Datablist

Una vez que se haya registrado en Datablist, deberá configurar su automatización. ¡Le explico cómo!

Cree una nueva collection haciendo clic en el símbolo de suma o use el atajo "N".

Página de Datablist para crear una nueva collection
Página de Datablist para crear una nueva collection

Esto es lo que verá al crear una collection nueva. Ya renombré mi collection (también le puse un emoji).

Así se ve una collection vacía en Datablist
Así se ve una collection vacía en Datablist

Eso es todo con la preparación. Ahora viene la acción.

Paso 3 – Empezar a scrapear sitios e‑commerce

Para empezar a scrapear productos de sitios e‑commerce, haga 3 cosas:

  1. Elija la fuente "AI Agent - Site Scraper"
  2. Pegue el prompt que explica al AI Agent su objetivo
  3. Cree un campo/columna de salida para cada dato de producto que quiera extraer

Ahora que ya hemos visto el plan, ¡pongámonos a scrapear!

Haga clic en "See all sources" para empezar a configurar el AI Agent.

Así accede a las numerosas fuentes de datos de Datablist
Así accede a las numerosas fuentes de datos de Datablist

Ahora seleccione "AI Agent - Site Scraper"

El AI Agent Site Scraper de Datablist permite scrapear casi cualquier página
El AI Agent Site Scraper de Datablist permite scrapear casi cualquier página

Pegue la URL del sitio del que quiere scrapear los productos en el primer campo.

La URL de la página de categoría que quiero scrapear con el AI Agent
La URL de la página de categoría que quiero scrapear con el AI Agent

Luego escriba un prompt explicando al AI Agent qué información desea extraer de ese sitio e‑commerce (también puede usar mi prompt de abajo).

Tener el prompt adecuado facilita mucho la extracción de productos
Tener el prompt adecuado facilita mucho la extracción de productos
Extract product prompt

Context: I have an e-commerce site with a listing of products.

===

What I want you to do: Visit that site and get me all the displayed products and their information.

===

How to do it: Visit the site that I am going to give you the link for and extract all displayed information for each product.

===

Important mention about the task: Don't extract any information that isn't linked to a product, e.g. call to actions

===

Here's a description of what we are looking for:

  • Name of the Product
  • Link to the product page
  • Original Price of the product in the displayed currency
  • Product category: (examples: Nutritionally Complete Instant Meals, Tank tops, Socken)
  • Product specification 1: (examples: Compression fit, 40g protein, Premium Füßlinge)
  • Product specification 2: (examples: Color, pieces, servings)
  • Special Tags: (examples: New, limited edition, last chance etc. Return "None" if there none)
  • Absolute link to the product picture
  • Discount in % (if available. Return "None" if there's no discount)

Don't return anything what doesn't fall in these data types and return only one piece of information for each type

===

Important mention about the data: Not all pages are structured in the same way but the products are all labeled well enough that you should be able to recognize the distinctions between the data point.

Ahora marque la casilla Enable Pagination para que el scraper avance automáticamente a la siguiente página tras terminar la primera.

Activar la paginación es clave al scrapear sitios e‑commerce
Activar la paginación es clave al scrapear sitios e‑commerce

Ahora cree un campo/columna de salida por cada tipo de dato de producto que desee extraer.

Propiedad de salida para guardar los nombres de los productos extraídos
Propiedad de salida para guardar los nombres de los productos extraídos

Haga clic en "More" para crear más campos de salida y repita hasta tener uno por cada tipo de información.

Cree tantas propiedades como necesite para almacenar su información de producto
Cree tantas propiedades como necesite para almacenar su información de producto

Si necesita guardar por separado las especificaciones del producto, cree un campo para cada especificación. Aquí tiene un ejemplo:

Ejemplo de especificaciones de producto
Ejemplo de especificaciones de producto
Crear una propiedad por especificación es clave para una vista de datos limpia
Crear una propiedad por especificación es clave para una vista de datos limpia

💡 Haga esto para resultados más precisos

Dé a los AI Agents ejemplos explícitos de las especificaciones que quiere. Aquí, con Tank tops de GymShark (imagen anterior):

Product specification 1: Slim Fit
Product specification 2: Black

Cuando haya creado todos los campos de salida, marque la casilla de "Advanced Settings".

Active Advanced Settings para desbloquear más funciones de scraping
Active Advanced Settings para desbloquear más funciones de scraping

Ahora puede:

  1. Especificar el modelo para scrapear ⬅️ Recomendamos GPT-4o mini por su mejor relación rendimiento/precio
  2. Seleccionar el número máximo de iteraciones que hará el AI Agent. Haga clic aquí para aprender más sobre AI agents
  3. Activar “Render HTML” para que el AI Agent pueda scrapear tiendas renderizadas con JavaScript – 🚨 Esto es crítico en algunas tiendas. Puede probar sin activarlo y, si el primer intento no da resultados, reinicie el scraping con esta opción

Cuando lo active, haga clic en “Continue”.

La opción “Render HTML” es una función que casi ninguna herramienta tiene
La opción “Render HTML” es una función que casi ninguna herramienta tiene

Luego haga clic en "Run import now" para iniciar el scraping de la información de producto.

El último clic antes de que el AI Agent empiece a extraer productos
El último clic antes de que el AI Agent empiece a extraer productos

Estos son los resultados que obtendrá con el Website Scraper AI Agent.

Estos son los productos que scrapée del sitio mostrado al inicio
Estos son los productos que scrapée del sitio mostrado al inicio

💡 Haga esto para evitar duplicados

Seleccione un valor único como el enlace del producto o su nombre para no importar el mismo producto dos veces cuando vuelva a scrapear la tienda. Así, cuando lo ejecute de nuevo, solo añadirá los nuevos ítems. tenga en cuenta que seguirá pagando por los productos no importados, ya que solo podemos evitar la importación, no el scraping

Vea las instrucciones abajo ⬇️

Primero, elija su identificador único. En mi caso usaré el enlace del producto, pero puede ser otro para usted.

Luego haga clic en el encabezado de la columna y seleccione "Rename - Settings - Delete".

Opciones de columna en Datablist
Opciones de columna en Datablist

Ahora marque la casilla "Do not allow duplicate values" y haga clic en "Save Property".

Así crea un identificador único en Datablist
Así crea un identificador único en Datablist

Con esto, estará listo y cada producto de la tienda aparecerá una sola vez en su collection, incluso si vuelve a scrapear la misma tienda.

También debería ver un icono de llave en el encabezado de la columna como confirmación.

Cada identificador único tiene un icono de llave a su derecha
Cada identificador único tiene un icono de llave a su derecha

Conclusión

Scrapear sitios y tiendas e‑commerce sin código es posible: use un AI Agent que lo haga automáticamente. Lo único en lo que debe enfocarse es en su prompt (o use el que le damos), pero añada sus propios ejemplos entre paréntesis para extraer la información de producto relevante para usted.

¿Puedo scrapear sitios e‑commerce sin código?

Sí. El AI de Datablist permite scrapear sitios e‑commerce con instrucciones en lenguaje natural. Escriba sus indicaciones en inglés sencillo y el AI Agent se encargará de lo técnico.

¿Cómo monitorizar cambios de precio en sitios e‑commerce?

Puede configurar tareas recurrentes con el AI Agent de Datablist para monitorizar y registrar cambios de precio automáticamente. El agente revisará periódicamente los sitios y anotará cualquier actualización.

¿Cómo scrapear información de producto en sitios e‑commerce?

Cree un AI Agent, especifique los datos que desea (precios, nombres, descripciones, etc.) y proporciónele la URL del sitio. La IA extraerá y organizará la información automáticamente.

¿Cómo scrapear varios sitios e‑commerce a la vez?

No, por ahora no es posible en paralelo, pero puede crear varias collections y scrapear una tienda por vez con Datablist. Configure el AI Agent con sus parámetros y extraerá todos los productos por usted.

El web scraping en sí no es ilegal, pero algunos sitios lo prohíben explícitamente en sus términos de uso.