Scrapes agency listings from Clutch.co including company names, ratings, services, pricing, and profile links

## Goal
Visit the Clutch.co URL I am going to give you and extract the agency information.

## Information I want you to extract:

- Company Name
- Clutch Profile URL (full absolute URL to the company profile page, e.g. https://clutch.co/profile/company-name)
- Tagline / Summary (the short description shown below the company name)
- Min. Project Size (e.g. $10,000+, $25,000+)
- Avg. Hourly Rate (e.g. $25 - $49 / hr)
- Employee Count (e.g. 10 - 49, 50 - 249, 250 - 999)
- Location (city and country as displayed, e.g. Denpasar, Indonesia)
- Rating (overall star rating out of 5.0)
- Number of Reviews (total number of reviews shown)
- Primary Service (the service with the highest percentage, e.g. "40% UX/UI Design")
- All Services (comma-separated list of all services provided, e.g. "UX/UI Design, Custom Software Development, Mobile App Development")
- Verified Status (Premier Verified, Verified, or Not Verified)

## How to handle pagination:
- The pagination on Clutch.co is done using the "?page=X" URL parameter
- Example: https://clutch.co/id/agencies/ui-ux?page=2, https://clutch.co/id/agencies/ui-ux?page=3
- Use this parameter to navigate through all pages of results

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- For ratings, return the numeric value (e.g. "4.8") not the star icons
- If a company has no reviews yet, return "0" for Number of Reviews and "N/A" for Rating
- For the Primary Service, always include the percentage (e.g. "40% UX/UI Design")
- For All Services, list them without percentages, separated by commas

## Additional Instructions:
- Extract information from the listing cards on the search results page
- Do not navigate into individual company profiles, extract only what is visible on the listing page
- Skip sponsored/featured banners that are not actual company listings
- Some listings may show a "Serves [Location]" instead of a physical location, extract that as the Location value
- Important: Do not extract anything else but the requested information

Как использовать этот AI prompt

  1. Создайте новую коллекцию: Начните с создания новой пустой коллекции в Datablist, где будут храниться данные. Нажмите '+ Create new collection' в боковой панели.
AI web scraping > обычный web scraping
AI web scraping > обычный web scraping
  1. Выберите источник AI Agent: Нажмите "See all sources" или перейдите в "Import" -> "Import From Data Sources". Выберите "AI Agent - Site Scraper".
Выбор AI Agent - Site Scraper
Выбор AI Agent - Site Scraper
  1. Настройте источник:

    • Select Template: Найдите и выберите prompt в выпадающем списке "Template". Указанный выше prompt будет загружен автоматически.
    • URL to Scrape: Укажите URL для скрапинга
    • Enable Pagination (Optional): Если результаты находятся на нескольких страницах, включите Enable Pagination и задайте разумный предел Max Pages (например, 10).
    • Customize (Optional): Вы можете выбрать модель AI (например, GPT-4o mini часто экономичен), отредактировать prompt под конкретные нужды или изменить ожидаемые Outputs.
AI web scraping > обычный web scraping
AI web scraping > обычный web scraping
  1. Проверьте Outputs: Нажмите Continue. Datablist покажет поля вывода, определённые в prompt (Project Name, Client Company Name). Нажмите значок + рядом с каждым, чтобы создать соответствующие свойства (столбцы) в вашей коллекции.
Outputs
Outputs
  1. Запустите импорт: Нажмите Run import now. AI Agent начнёт скрапить сайт на основе prompt и заполнять вашу коллекцию.

Цены

Этот источник данных использует Datablist credits по модели pay-as-you-go. Стоимость зависит от сложности сайта и количества посещённых страниц.

Сначала протестируйте запуск AI Agent на одной странице, чтобы оценить стоимость.

FAQ

Как запустить повторный прогон с той же конфигурацией?

После запуска AI Agent нажмите розовую кнопку в правом верхнем углу таблицы данных, чтобы открыть его снова с последними использованными настройками.

Используйте сохранённые настройки агента
Используйте сохранённые настройки агента

Что происходит, если AI Agent пытается открыть защищённый сайт или получает блокировку?

AI Agent автоматически использует прокси-серверы при необходимости для доступа к сайтам с защитой от scraping или географическими ограничениями. Это повышает шанс успешного извлечения данных, хотя очень защищённые сайты всё ещё могут быть сложными.

Сколько данных я могу обработать с AI Agent?

При запуске AI Agent (как обогащения или как источника данных) коллекции Datablist могут обрабатывать до 100 000 элементов (строк). Для больших наборов данных, возможно, потребуется разделить их на несколько коллекций.

Чем AI Agent отличается от обогащений ChatGPT/Claude/Gemini?

Стандартные AI-обогащения (ChatGPT, Claude, Gemini) обрабатывают данные, уже находящиеся в вашей коллекции, используя имеющиеся знания AI. AI Agent может активно взаимодействовать с живым вебом — выполнять Google-поиски, просматривать сайты и извлекать новую информацию на основе вашего prompt.

Насколько точны результаты?

Точность сильно зависит от ясности и конкретики вашего prompt, а также от сложности задачи и доступности информации онлайн. Чёткие инструкции, примеры и правила обработки ошибок улучшают качество. Datablist часто добавляет показатель confidence для ответов AI Agent, чтобы оценивать надёжность.