Scrapes agency listings from Clutch.co including company names, ratings, services, pricing, and profile links

## Goal
Visit the Clutch.co URL I am going to give you and extract the agency information.

## Information I want you to extract:

- Company Name
- Clutch Profile URL (full absolute URL to the company profile page, e.g. https://clutch.co/profile/company-name)
- Tagline / Summary (the short description shown below the company name)
- Min. Project Size (e.g. $10,000+, $25,000+)
- Avg. Hourly Rate (e.g. $25 - $49 / hr)
- Employee Count (e.g. 10 - 49, 50 - 249, 250 - 999)
- Location (city and country as displayed, e.g. Denpasar, Indonesia)
- Rating (overall star rating out of 5.0)
- Number of Reviews (total number of reviews shown)
- Primary Service (the service with the highest percentage, e.g. "40% UX/UI Design")
- All Services (comma-separated list of all services provided, e.g. "UX/UI Design, Custom Software Development, Mobile App Development")
- Verified Status (Premier Verified, Verified, or Not Verified)

## How to handle pagination:
- The pagination on Clutch.co is done using the "?page=X" URL parameter
- Example: https://clutch.co/id/agencies/ui-ux?page=2, https://clutch.co/id/agencies/ui-ux?page=3
- Use this parameter to navigate through all pages of results

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- For ratings, return the numeric value (e.g. "4.8") not the star icons
- If a company has no reviews yet, return "0" for Number of Reviews and "N/A" for Rating
- For the Primary Service, always include the percentage (e.g. "40% UX/UI Design")
- For All Services, list them without percentages, separated by commas

## Additional Instructions:
- Extract information from the listing cards on the search results page
- Do not navigate into individual company profiles, extract only what is visible on the listing page
- Skip sponsored/featured banners that are not actual company listings
- Some listings may show a "Serves [Location]" instead of a physical location, extract that as the Location value
- Important: Do not extract anything else but the requested information

Jak używać tego AI promptu

  1. Utwórz nową kolekcję: Zacznij od utworzenia nowej, pustej kolekcji w Datablist, w której zostaną zapisane dane. Kliknij „+ Create new collection” w panelu bocznym.
AI web scraping > Zwykły web scraping
AI web scraping > Zwykły web scraping
  1. Wybierz źródło AI Agent: Kliknij „See all sources” lub przejdź do „Import” -> „Import From Data Sources”. Wybierz „AI Agent - Site Scraper”.
Wybierz AI Agent - Site Scraper
Wybierz AI Agent - Site Scraper
  1. Skonfiguruj źródło:

    • Select Template: Znajdź i wybierz prompt z listy „Template”. Powyższy prompt zostanie załadowany automatycznie.
    • URL to Scrape: Wprowadź URL do scrapingu
    • Enable Pagination (Optional): Jeśli wyniki są na kilku stronach, zaznacz Enable Pagination i ustaw rozsądny limit Max Pages (np. 10).
    • Customize (Optional): Możesz dopasować model AI (np. GPT-4o mini bywa korzystny kosztowo), edytować prompt pod konkretne potrzeby lub zmienić oczekiwane Outputs.
AI web scraping > Zwykły web scraping
AI web scraping > Zwykły web scraping
  1. Review Outputs: Kliknij Continue. Datablist pokaże pola wyjściowe zdefiniowane w prompt (Project Name, Client Company Name). Kliknij ikonę + obok każdego, aby utworzyć odpowiednie właściwości (kolumny) w Twojej kolekcji.
Outputs
Outputs
  1. Run Import: Kliknij Run import now. AI Agent rozpocznie scraping strony zgodnie z promptem i zapełni Twoją kolekcję.

Cennik

To źródło danych korzysta z kredytów Datablist w modelu rozliczeń za użycie. Koszt zależy od złożoności strony i liczby odwiedzonych stron.

Przetestuj uruchomienie AI Agent najpierw na pojedynczej stronie, aby oszacować koszt.

FAQ

Jak uruchomić kolejne zadanie z tą samą konfiguracją?

Po uruchomieniu AI Agent kliknij różowy przycisk w prawym górnym rogu tabeli danych, aby otworzyć go ponownie z ostatnimi ustawieniami.

Użyj istniejących ustawień agenta
Użyj istniejących ustawień agenta

Co się stanie, jeśli AI Agent spróbuje uzyskać dostęp do chronionej strony lub zostanie zablokowany?

AI Agent automatycznie używa serwerów proxy, gdy to konieczne, aby dotrzeć do stron z zabezpieczeniami przed scrapingiem lub ograniczeniami geograficznymi. Zwiększa to szanse na skuteczną ekstrakcję danych, choć bardzo silnie chronione witryny nadal mogą stanowić wyzwanie.

Ile danych mogę przetworzyć za pomocą AI Agent?

Podczas uruchamiania AI Agent (zarówno jako wzbogacenie, jak i źródło danych) kolekcje Datablist mogą przetwarzać do 100 000 elementów (wierszy). W przypadku większych zbiorów danych możesz potrzebować podzielić je na kilka kolekcji.

Czym AI Agent różni się od wzbogaceń ChatGPT/Claude/Gemini?

Standardowe wzbogacenia AI (ChatGPT, Claude, Gemini) przetwarzają dane już znajdujące się w Twojej kolekcji, korzystając z istniejącej wiedzy AI. AI Agent potrafi aktywnie działać w sieci — wykonywać wyszukiwania w Google, przeglądać strony i pozyskiwać nowe informacje na podstawie Twojego promptu.

Jak dokładne są wyniki?

Dokładność w dużej mierze zależy od klarowności i precyzji Twojego promptu oraz złożoności zadania i dostępności informacji online. Dostarczenie jasnych instrukcji, przykładów i zasad obsługi błędów poprawia wyniki. Datablist często podaje ocenę pewności (confidence score) dla wyników AI Agent, aby pomóc ocenić wiarygodność.