Scrapes agency listings from Clutch.co including company names, ratings, services, pricing, and profile links

## Goal
Visit the Clutch.co URL I am going to give you and extract the agency information.

## Information I want you to extract:

- Company Name
- Clutch Profile URL (full absolute URL to the company profile page, e.g. https://clutch.co/profile/company-name)
- Tagline / Summary (the short description shown below the company name)
- Min. Project Size (e.g. $10,000+, $25,000+)
- Avg. Hourly Rate (e.g. $25 - $49 / hr)
- Employee Count (e.g. 10 - 49, 50 - 249, 250 - 999)
- Location (city and country as displayed, e.g. Denpasar, Indonesia)
- Rating (overall star rating out of 5.0)
- Number of Reviews (total number of reviews shown)
- Primary Service (the service with the highest percentage, e.g. "40% UX/UI Design")
- All Services (comma-separated list of all services provided, e.g. "UX/UI Design, Custom Software Development, Mobile App Development")
- Verified Status (Premier Verified, Verified, or Not Verified)

## How to handle pagination:
- The pagination on Clutch.co is done using the "?page=X" URL parameter
- Example: https://clutch.co/id/agencies/ui-ux?page=2, https://clutch.co/id/agencies/ui-ux?page=3
- Use this parameter to navigate through all pages of results

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- For ratings, return the numeric value (e.g. "4.8") not the star icons
- If a company has no reviews yet, return "0" for Number of Reviews and "N/A" for Rating
- For the Primary Service, always include the percentage (e.g. "40% UX/UI Design")
- For All Services, list them without percentages, separated by commas

## Additional Instructions:
- Extract information from the listing cards on the search results page
- Do not navigate into individual company profiles, extract only what is visible on the listing page
- Skip sponsored/featured banners that are not actual company listings
- Some listings may show a "Serves [Location]" instead of a physical location, extract that as the Location value
- Important: Do not extract anything else but the requested information

So verwenden Sie diesen AI Prompt

  1. Neue Collection erstellen: Erstellen Sie zuerst eine neue, leere Collection in Datablist, in der die Daten gespeichert werden. Klicken Sie in der Seitenleiste auf "+ Create new collection".
AI Web Scraping > Klassisches Web Scraping
AI Web Scraping > Klassisches Web Scraping
  1. AI Agent Source auswählen: Klicken Sie auf "See all sources" oder gehen Sie zu "Import" -> "Import From Data Sources". Wählen Sie "AI Agent - Site Scraper".
AI Agent - Site Scraper auswählen
AI Agent - Site Scraper auswählen
  1. Quelle konfigurieren:

    • Select Template: Suchen und wählen Sie den Prompt im "Template"-Dropdown. Der obige Prompt wird automatisch geladen.
    • URL to Scrape: Geben Sie die URL ein, die gescrapet werden soll.
    • Enable Pagination (Optional): Wenn sich Ergebnisse auf mehreren Seiten befinden, aktivieren Sie Enable Pagination und setzen Sie ein sinnvolles Limit für Max Pages (z. B. 10).
    • Customize (Optional): Sie können das AI-Modell anpassen (z. B. ist GPT-4o mini oft kosteneffizient), den Prompt für spezifische Anforderungen bearbeiten oder die erwarteten Outputs modifizieren.
AI Web Scraping > Klassisches Web Scraping
AI Web Scraping > Klassisches Web Scraping
  1. Outputs prüfen: Klicken Sie auf Continue. Datablist zeigt die im Prompt definierten Output-Felder (Project Name, Client Company Name). Klicken Sie jeweils auf das +-Symbol, um die entsprechenden Properties (Spalten) in Ihrer Collection zu erstellen.
Outputs
Outputs
  1. Import ausführen: Klicken Sie auf Run import now. Der AI Agent beginnt basierend auf dem Prompt mit dem Scrapen der Website und füllt Ihre Collection.

Preise

Diese Datenquelle nutzt Datablist Credits nach Nutzung. Die Kosten hängen von der Komplexität der Website und der Anzahl der besuchten Seiten ab.

Führen Sie den AI Agent zunächst auf einer einzelnen Seite testweise aus, um die Kosten abzuschätzen.

FAQ

Wie starte ich einen weiteren Lauf mit der gleichen Konfiguration?

Nachdem Sie Ihren AI Agent ausgeführt haben, klicken Sie oben rechts in Ihrer Datentabelle auf die rosa Schaltfläche, um ihn mit den zuletzt verwendeten Einstellungen erneut zu öffnen.

Bestehende Agent-Einstellungen verwenden
Bestehende Agent-Einstellungen verwenden

Was passiert, wenn der AI Agent versucht, auf eine geschützte Website zuzugreifen oder blockiert wird?

Der AI Agent verwendet bei Bedarf automatisch Proxy-Server, um auf Websites zuzugreifen, die über Scraping-Schutz oder geografische Beschränkungen verfügen. Das erhöht die Erfolgschancen für die Datenerfassung, sehr stark geschützte Seiten können jedoch weiterhin herausfordernd sein.

Wie viele Daten kann ich mit dem AI Agent verarbeiten?

Bei der Ausführung des AI Agent (als Enrichment oder als Datenquelle) können Datablist Collections bis zu 100.000 Items (Zeilen) verarbeiten. Für größere Datensätze müssen Sie die Daten ggf. auf mehrere Collections aufteilen.

Worin unterscheidet sich der AI Agent von den ChatGPT/Claude/Gemini Enrichments?

Die Standard-AI-Enrichments (ChatGPT, Claude, Gemini) verarbeiten Daten, die sich bereits in Ihrer Collection befinden, basierend auf dem vorhandenen Wissen der AI. Der AI Agent kann aktiv mit dem Live-Web interagieren – Google-Suchen durchführen, Websites browsen und neue Informationen gemäß Ihrem Prompt extrahieren.

Wie genau sind die Ergebnisse?

Die Genauigkeit hängt stark von der Klarheit und Spezifität Ihres Prompts sowie von der Komplexität der Aufgabe und den online verfügbaren Informationen ab. Klare Anweisungen, Beispiele und Regeln zur Fehlerbehandlung verbessern die Ergebnisse. Datablist liefert häufig einen Confidence Score für AI-Agent-Outputs, um die Zuverlässigkeit besser einschätzen zu können.