Cero código, mucha IA. Así hemos hecho que el scraping de sitios e‑commerce sea más fácil que nunca.
Ni siquiera necesita saber cómo escribir buenos prompts, porque le damos un prompt y las instrucciones para extraer todos los productos que necesite de cualquier tienda online.
Basta de palabras, ¡vamos a scrapear productos!
Paso 1 – Entender el scraping en sitios e‑commerce
Hay dos formas de scrapear productos en sitios e‑commerce:
Puede:
-
Scrapear páginas de "Collection/Category" para extraer productos seleccionados de un sitio e‑commerce ⬅️ Este es el método que usaremos hoy
Esta es la página de categoría que usaré para scrapear todos los productos -
Scrapear las páginas de "All Products" para extraer todos los productos de una tienda
Las páginas de "All products" dan menos control sobre lo que se extrae
La configuración del AI Agent es la misma; solo cambian los puntos de partida.
Paso 2 – Preparar el scraping de sitios e‑commerce
La preparación es la mitad del éxito, ¿verdad? Esto haremos antes de scrapear:
- Reunir los enlaces de los sitios e‑commerce que desea scrapear
- Registrarse en Datablist
- Crear una collection en Datablist
¡Empecemos!
Para scrapear productos sin código, necesita una herramienta que lo permita en lenguaje natural. Una de ellas es el AI Research Agent en Datablist.
Una vez que se haya registrado en Datablist, deberá configurar su automatización. ¡Le explico cómo!
Cree una nueva collection haciendo clic en el símbolo de suma o use el atajo "N".
Esto es lo que verá al crear una collection nueva. Ya renombré mi collection (también le puse un emoji).
Eso es todo con la preparación. Ahora viene la acción.
Paso 3 – Empezar a scrapear sitios e‑commerce
Para empezar a scrapear productos de sitios e‑commerce, haga 3 cosas:
- Elija la fuente "AI Agent - Site Scraper"
- Pegue el prompt que explica al AI Agent su objetivo
- Cree un campo/columna de salida para cada dato de producto que quiera extraer
Ahora que ya hemos visto el plan, ¡pongámonos a scrapear!
Haga clic en "See all sources" para empezar a configurar el AI Agent.
Ahora seleccione "AI Agent - Site Scraper"
Pegue la URL del sitio del que quiere scrapear los productos en el primer campo.
Luego escriba un prompt explicando al AI Agent qué información desea extraer de ese sitio e‑commerce (también puede usar mi prompt de abajo).
Context: I have an e-commerce site with a listing of products.
===What I want you to do: Visit that site and get me all the displayed products and their information.
===How to do it: Visit the site that I am going to give you the link for and extract all displayed information for each product.
===Important mention about the task: Don't extract any information that isn't linked to a product, e.g. call to actions
===Here's a description of what we are looking for:
- Name of the Product
- Link to the product page
- Original Price of the product in the displayed currency
- Product category: (examples: Nutritionally Complete Instant Meals, Tank tops, Socken)
- Product specification 1: (examples: Compression fit, 40g protein, Premium Füßlinge)
- Product specification 2: (examples: Color, pieces, servings)
- Special Tags: (examples: New, limited edition, last chance etc. Return "None" if there none)
- Absolute link to the product picture
- Discount in % (if available. Return "None" if there's no discount)
Don't return anything what doesn't fall in these data types and return only one piece of information for each type
===Important mention about the data: Not all pages are structured in the same way but the products are all labeled well enough that you should be able to recognize the distinctions between the data point.
Ahora marque la casilla Enable Pagination para que el scraper avance automáticamente a la siguiente página tras terminar la primera.
Ahora cree un campo/columna de salida por cada tipo de dato de producto que desee extraer.
Haga clic en "More" para crear más campos de salida y repita hasta tener uno por cada tipo de información.
Si necesita guardar por separado las especificaciones del producto, cree un campo para cada especificación. Aquí tiene un ejemplo:
💡 Haga esto para resultados más precisos
Dé a los AI Agents ejemplos explícitos de las especificaciones que quiere. Aquí, con Tank tops de GymShark (imagen anterior):
Product specification 1: Slim Fit
Product specification 2: Black
Cuando haya creado todos los campos de salida, marque la casilla de "Advanced Settings".
Ahora puede:
- Especificar el modelo para scrapear ⬅️ Recomendamos GPT-4o mini por su mejor relación rendimiento/precio
- Seleccionar el número máximo de iteraciones que hará el AI Agent. Haga clic aquí para aprender más sobre AI agents
- Activar “Render HTML” para que el AI Agent pueda scrapear tiendas renderizadas con JavaScript – 🚨 Esto es crítico en algunas tiendas. Puede probar sin activarlo y, si el primer intento no da resultados, reinicie el scraping con esta opción
Cuando lo active, haga clic en “Continue”.
Luego haga clic en "Run import now" para iniciar el scraping de la información de producto.
Estos son los resultados que obtendrá con el Website Scraper AI Agent.
💡 Haga esto para evitar duplicados
Seleccione un valor único como el enlace del producto o su nombre para no importar el mismo producto dos veces cuando vuelva a scrapear la tienda. Así, cuando lo ejecute de nuevo, solo añadirá los nuevos ítems. — tenga en cuenta que seguirá pagando por los productos no importados, ya que solo podemos evitar la importación, no el scraping
Vea las instrucciones abajo ⬇️
Primero, elija su identificador único. En mi caso usaré el enlace del producto, pero puede ser otro para usted.
Luego haga clic en el encabezado de la columna y seleccione "Rename - Settings - Delete".
Ahora marque la casilla "Do not allow duplicate values" y haga clic en "Save Property".
Con esto, estará listo y cada producto de la tienda aparecerá una sola vez en su collection, incluso si vuelve a scrapear la misma tienda.
También debería ver un icono de llave en el encabezado de la columna como confirmación.
Conclusión
Scrapear sitios y tiendas e‑commerce sin código es posible: use un AI Agent que lo haga automáticamente. Lo único en lo que debe enfocarse es en su prompt (o use el que le damos), pero añada sus propios ejemplos entre paréntesis para extraer la información de producto relevante para usted.
¿Puedo scrapear sitios e‑commerce sin código?
Sí. El AI de Datablist permite scrapear sitios e‑commerce con instrucciones en lenguaje natural. Escriba sus indicaciones en inglés sencillo y el AI Agent se encargará de lo técnico.
¿Cómo monitorizar cambios de precio en sitios e‑commerce?
Puede configurar tareas recurrentes con el AI Agent de Datablist para monitorizar y registrar cambios de precio automáticamente. El agente revisará periódicamente los sitios y anotará cualquier actualización.
¿Cómo scrapear información de producto en sitios e‑commerce?
Cree un AI Agent, especifique los datos que desea (precios, nombres, descripciones, etc.) y proporciónele la URL del sitio. La IA extraerá y organizará la información automáticamente.
¿Cómo scrapear varios sitios e‑commerce a la vez?
No, por ahora no es posible en paralelo, pero puede crear varias collections y scrapear una tienda por vez con Datablist. Configure el AI Agent con sus parámetros y extraerá todos los productos por usted.
¿Es legal el scraping de sitios web?
El web scraping en sí no es ilegal, pero algunos sitios lo prohíben explícitamente en sus términos de uso.