Scrapes agency listings from Clutch.co including company names, ratings, services, pricing, and profile links

## Goal
Visit the Clutch.co URL I am going to give you and extract the agency information.

## Information I want you to extract:

- Company Name
- Clutch Profile URL (full absolute URL to the company profile page, e.g. https://clutch.co/profile/company-name)
- Tagline / Summary (the short description shown below the company name)
- Min. Project Size (e.g. $10,000+, $25,000+)
- Avg. Hourly Rate (e.g. $25 - $49 / hr)
- Employee Count (e.g. 10 - 49, 50 - 249, 250 - 999)
- Location (city and country as displayed, e.g. Denpasar, Indonesia)
- Rating (overall star rating out of 5.0)
- Number of Reviews (total number of reviews shown)
- Primary Service (the service with the highest percentage, e.g. "40% UX/UI Design")
- All Services (comma-separated list of all services provided, e.g. "UX/UI Design, Custom Software Development, Mobile App Development")
- Verified Status (Premier Verified, Verified, or Not Verified)

## How to handle pagination:
- The pagination on Clutch.co is done using the "?page=X" URL parameter
- Example: https://clutch.co/id/agencies/ui-ux?page=2, https://clutch.co/id/agencies/ui-ux?page=3
- Use this parameter to navigate through all pages of results

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- For ratings, return the numeric value (e.g. "4.8") not the star icons
- If a company has no reviews yet, return "0" for Number of Reviews and "N/A" for Rating
- For the Primary Service, always include the percentage (e.g. "40% UX/UI Design")
- For All Services, list them without percentages, separated by commas

## Additional Instructions:
- Extract information from the listing cards on the search results page
- Do not navigate into individual company profiles, extract only what is visible on the listing page
- Skip sponsored/featured banners that are not actual company listings
- Some listings may show a "Serves [Location]" instead of a physical location, extract that as the Location value
- Important: Do not extract anything else but the requested information

Sådan bruger du denne AI-prompt

  1. Opret en ny Collection: Start med at oprette en ny, tom collection i Datablist, hvor dataene gemmes. Klik på '+ Create new collection' i sidepanelet.
AI web scraping > Traditionel web scraping
AI web scraping > Traditionel web scraping
  1. Vælg AI Agent-kilden: Klik "See all sources" eller gå til "Import" -> "Import From Data Sources". Vælg "AI Agent - Site Scraper".
Vælg AI Agent - Site Scraper
Vælg AI Agent - Site Scraper
  1. Konfigurer kilden:

    • Select Template: Find og vælg prompten fra "Template"-dropdown-menuen. Prompten ovenfor bliver automatisk indlæst.
    • URL to Scrape: Indtast din URL, der skal scrapes
    • Enable Pagination (Optional): Hvis resultaterne er på flere sider, markér Enable Pagination og angiv en fornuftig grænse for Max Pages (fx 10).
    • Customize (Optional): Du kan justere AI-modellen (fx er GPT-4o mini ofte omkostningseffektiv), redigere prompten til specifikke behov eller ændre de forventede Outputs.
AI web scraping > Traditionel web scraping
AI web scraping > Traditionel web scraping
  1. Gennemse Outputs: Klik Continue. Datablist viser de outputfelter, der er defineret i prompten (Project Name, Client Company Name). Klik på +-ikonet ved hver for at oprette de tilsvarende properties (kolonner) i din collection.
Outputs
Outputs
  1. Kør import: Klik Run import now. AI Agenten begynder at scrape websitet baseret på prompten og udfylder din collection.

Priser

Denne datakilde bruger Datablist credits efter forbrug. Omkostningerne afhænger af websitets kompleksitet og antallet af besøgte sider.

Test ved først at køre AI Agenten på en enkelt side for at få et estimat af omkostningen.

FAQ

Hvordan starter jeg endnu en kørsel med samme konfiguration?

Når du har kørt din AI Agent, skal du klikke på den lyserøde knap øverst til højre i din datatabel for at åbne den igen med dine senest brugte indstillinger.

Brug dine eksisterende agent-indstillinger
Brug dine eksisterende agent-indstillinger

Hvad sker der, hvis AI Agenten forsøger at tilgå et beskyttet website eller bliver blokeret?

AI Agenten bruger automatisk proxyservere, når det er nødvendigt, for at tilgå websites med scraping-beskyttelse eller geografiske begrænsninger. Det øger chancen for vellykket dataudtræk, men meget tungt beskyttede sider kan stadig give udfordringer.

Hvor meget data kan jeg behandle med AI Agenten?

Når du kører AI Agenten (enten som en berigelse eller en datakilde), kan Datablist collections håndtere behandling af op til 100.000 items (rækker). For større datasæt kan du have brug for at splitte dataene i flere collections.

Hvordan adskiller AI Agenten sig fra ChatGPT/Claude/Gemini-enrichments?

Standard AI-enrichments (ChatGPT, Claude, Gemini) behandler data, der allerede er i din collection, ved hjælp af AI'ens eksisterende viden. AI Agenten kan aktivt interagere med det live web—lave Google-søgninger, browse websites og udtrække ny information baseret på din prompt.

Hvor præcise er resultaterne?

Nøjagtighed afhænger i høj grad af klarheden og specificiteten i din prompt samt opgavens kompleksitet og den tilgængelige information online. Tydelige instruktioner, eksempler og regler for fejl-håndtering forbedrer resultaterne. Datablist giver ofte en confidence score for AI Agent-outputs for at hjælpe med at vurdere pålideligheden.