Scrapes agency listings from Clutch.co including company names, ratings, services, pricing, and profile links

## Goal
Visit the Clutch.co URL I am going to give you and extract the agency information.

## Information I want you to extract:

- Company Name
- Clutch Profile URL (full absolute URL to the company profile page, e.g. https://clutch.co/profile/company-name)
- Tagline / Summary (the short description shown below the company name)
- Min. Project Size (e.g. $10,000+, $25,000+)
- Avg. Hourly Rate (e.g. $25 - $49 / hr)
- Employee Count (e.g. 10 - 49, 50 - 249, 250 - 999)
- Location (city and country as displayed, e.g. Denpasar, Indonesia)
- Rating (overall star rating out of 5.0)
- Number of Reviews (total number of reviews shown)
- Primary Service (the service with the highest percentage, e.g. "40% UX/UI Design")
- All Services (comma-separated list of all services provided, e.g. "UX/UI Design, Custom Software Development, Mobile App Development")
- Verified Status (Premier Verified, Verified, or Not Verified)

## How to handle pagination:
- The pagination on Clutch.co is done using the "?page=X" URL parameter
- Example: https://clutch.co/id/agencies/ui-ux?page=2, https://clutch.co/id/agencies/ui-ux?page=3
- Use this parameter to navigate through all pages of results

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- For ratings, return the numeric value (e.g. "4.8") not the star icons
- If a company has no reviews yet, return "0" for Number of Reviews and "N/A" for Rating
- For the Primary Service, always include the percentage (e.g. "40% UX/UI Design")
- For All Services, list them without percentages, separated by commas

## Additional Instructions:
- Extract information from the listing cards on the search results page
- Do not navigate into individual company profiles, extract only what is visible on the listing page
- Skip sponsored/featured banners that are not actual company listings
- Some listings may show a "Serves [Location]" instead of a physical location, extract that as the Location value
- Important: Do not extract anything else but the requested information

Cómo usar este prompt de AI

  1. Create a New Collection: Comience creando una colección nueva y vacía en Datablist donde se almacenarán los datos. Haga clic en '+ Create new collection' en la barra lateral.
AI web scraping > web scraping tradicional
AI web scraping > web scraping tradicional
  1. Select the AI Agent Source: Haga clic en "See all sources" o vaya a "Import" -> "Import From Data Sources". Elija "AI Agent - Site Scraper".
Seleccionar AI Agent - Site Scraper
Seleccionar AI Agent - Site Scraper
  1. Configure the Source:

    • Select Template: Busque y elija el prompt en el menú desplegable "Template". El prompt anterior se cargará automáticamente.
    • URL to Scrape: Ingrese su URL para extraer
    • Enable Pagination (Optional): Si los resultados están en varias páginas, marque Enable Pagination y defina un límite razonable en Max Pages (p. ej., 10).
    • Customize (Optional): Puede ajustar el modelo de AI (p. ej., GPT-4o mini suele ser rentable), editar el prompt para necesidades específicas o modificar los Outputs esperados.
AI web scraping > web scraping tradicional
AI web scraping > web scraping tradicional
  1. Review Outputs: Haga clic en Continue. Datablist mostrará los campos de salida definidos en el prompt (Project Name, Client Company Name). Haga clic en el icono + junto a cada uno para crear las propiedades correspondientes (columnas) en su colección.
Outputs
Outputs
  1. Run Import: Haga clic en Run import now. El AI Agent comenzará a hacer scraping del sitio web según el prompt y rellenará su colección.

Precios

Esta fuente de datos usa créditos de Datablist según el uso. El costo depende de la complejidad del sitio web y del número de páginas visitadas.

Pruebe ejecutar primero el AI Agent en una sola página para obtener una estimación del costo.

Preguntas frecuentes

¿Cómo iniciar otra ejecución con la misma configuración?

Una vez que ejecute su AI Agent, haga clic en el botón rosa en la parte superior derecha de su tabla de datos para abrirlo nuevamente con su última configuración utilizada.

Use su configuración de agente existente
Use su configuración de agente existente

¿Qué ocurre si el AI Agent intenta acceder a un sitio protegido o es bloqueado?

El AI Agent utiliza automáticamente servidores proxy cuando es necesario para acceder a sitios que puedan tener protecciones de scraping o restricciones geográficas. Esto aumenta las posibilidades de extracción exitosa de datos, aunque los sitios muy protegidos aún pueden presentar desafíos.

¿Cuántos datos puedo procesar con el AI Agent?

Al ejecutar el AI Agent (ya sea como enriquecimiento o como fuente de datos), las colecciones de Datablist pueden procesar hasta 100.000 elementos (filas). Para conjuntos de datos mayores, quizá necesite dividir sus datos en varias colecciones.

¿En qué se diferencia el AI Agent de los enriquecimientos de ChatGPT/Claude/Gemini?

Los enriquecimientos de AI estándar (ChatGPT, Claude, Gemini) procesan datos que ya están en su colección usando el conocimiento existente de la AI. El AI Agent puede interactuar activamente con la web en tiempo real: realizar búsquedas en Google, navegar sitios web y extraer información nueva según su prompt.

¿Qué tan precisos son los resultados?

La precisión depende en gran medida de la claridad y la especificidad de su prompt, así como de la complejidad de la tarea y la información disponible en línea. Proporcionar instrucciones claras, ejemplos y reglas para manejar errores mejora los resultados. Datablist suele proporcionar una puntuación de confianza para las salidas del AI Agent a fin de ayudar a medir la fiabilidad.