Scrapes products from retailer websites including product names, prices, categories, and availability.

## Goal
Visit the retailer URL I am going to give you and extract the relevant product and store information.

## Information I want you to extract:

- Product Name
- Product URL (full absolute URL to the product page)
- Brand Name (name of the brand the product is from)
- Price (in the displayed currency, e.g. $49.99)
- Sale Price (if a discount is shown, otherwise return "N/A")
- Product Category (e.g. Electronics, Clothing, Home & Garden)
- Availability (In Stock; Out of Stock; Limited Stock; Pre-Order)
- Rating (out of 5 stars, if displayed)
- SKU / Product ID (usually found in the product URL, e.g. "https://shop.example.com/products/SKN-40221" → SKU is "SKN-40221")
- Image URL (absolute link to the main product image)

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- If prices include tax labels (e.g. "incl. VAT"), return the price without the label
- If a product has multiple variants (sizes, colors), return only the default/first displayed variant

## Additional Instructions:
- Navigate through category pages and product listings to find products
- SKU's are  usually found in the product URL, e.g. "https://shop.example.com/products/SKN-40221" → SKU is "SKN-40221"
- Some retailers use lazy loading or infinite scroll, keep scrolling to load more products
- Do not extract promotional banners, ads, or non-product content
- Important: Do not extract anything else but the requested information

Cómo usar este prompt de AI

  1. Create a New Collection: Comience creando una colección nueva y vacía en Datablist donde se almacenarán los datos. Haga clic en '+ Create new collection' en la barra lateral.
AI web scraping > web scraping tradicional
AI web scraping > web scraping tradicional
  1. Select the AI Agent Source: Haga clic en "See all sources" o vaya a "Import" -> "Import From Data Sources". Elija "AI Agent - Site Scraper".
Seleccionar AI Agent - Site Scraper
Seleccionar AI Agent - Site Scraper
  1. Configure the Source:

    • Select Template: Busque y elija el prompt en el menú desplegable "Template". El prompt anterior se cargará automáticamente.
    • URL to Scrape: Ingrese su URL para extraer
    • Enable Pagination (Optional): Si los resultados están en varias páginas, marque Enable Pagination y defina un límite razonable en Max Pages (p. ej., 10).
    • Customize (Optional): Puede ajustar el modelo de AI (p. ej., GPT-4o mini suele ser rentable), editar el prompt para necesidades específicas o modificar los Outputs esperados.
AI web scraping > web scraping tradicional
AI web scraping > web scraping tradicional
  1. Review Outputs: Haga clic en Continue. Datablist mostrará los campos de salida definidos en el prompt (Project Name, Client Company Name). Haga clic en el icono + junto a cada uno para crear las propiedades correspondientes (columnas) en su colección.
Outputs
Outputs
  1. Run Import: Haga clic en Run import now. El AI Agent comenzará a hacer scraping del sitio web según el prompt y rellenará su colección.

Precios

Esta fuente de datos usa créditos de Datablist según el uso. El costo depende de la complejidad del sitio web y del número de páginas visitadas.

Pruebe ejecutar primero el AI Agent en una sola página para obtener una estimación del costo.

Preguntas frecuentes

¿Cómo iniciar otra ejecución con la misma configuración?

Una vez que ejecute su AI Agent, haga clic en el botón rosa en la parte superior derecha de su tabla de datos para abrirlo nuevamente con su última configuración utilizada.

Use su configuración de agente existente
Use su configuración de agente existente

¿Qué ocurre si el AI Agent intenta acceder a un sitio protegido o es bloqueado?

El AI Agent utiliza automáticamente servidores proxy cuando es necesario para acceder a sitios que puedan tener protecciones de scraping o restricciones geográficas. Esto aumenta las posibilidades de extracción exitosa de datos, aunque los sitios muy protegidos aún pueden presentar desafíos.

¿Cuántos datos puedo procesar con el AI Agent?

Al ejecutar el AI Agent (ya sea como enriquecimiento o como fuente de datos), las colecciones de Datablist pueden procesar hasta 100.000 elementos (filas). Para conjuntos de datos mayores, quizá necesite dividir sus datos en varias colecciones.

¿En qué se diferencia el AI Agent de los enriquecimientos de ChatGPT/Claude/Gemini?

Los enriquecimientos de AI estándar (ChatGPT, Claude, Gemini) procesan datos que ya están en su colección usando el conocimiento existente de la AI. El AI Agent puede interactuar activamente con la web en tiempo real: realizar búsquedas en Google, navegar sitios web y extraer información nueva según su prompt.

¿Qué tan precisos son los resultados?

La precisión depende en gran medida de la claridad y la especificidad de su prompt, así como de la complejidad de la tarea y la información disponible en línea. Proporcionar instrucciones claras, ejemplos y reglas para manejar errores mejora los resultados. Datablist suele proporcionar una puntuación de confianza para las salidas del AI Agent a fin de ayudar a medir la fiabilidad.