Extract business details from Yellow Pages including phone number, website URL, business name, and physical address.

Goal: I want to extract business details from Yellow Pages
===
What I want you to do: Visit the Yellow Pages URL I am going to give you and extract the relevant information.

## Information I want you to extract:

- Phone number
- YellowPages Detail Url (absolute url)
- Website URL
- Business name
- Business description
- Physical address

## Instructions
- In the case you don't find an information, keep the field empty.
- If not specified otherwise, the pagination is done using the "?page=X" url parameter
- Important: Do not extract anything else but the requested information.

Как использовать этот AI prompt

  1. Создайте новую коллекцию: Начните с создания новой пустой коллекции в Datablist, где будут храниться данные. Нажмите '+ Create new collection' в боковой панели.
AI web scraping > обычный web scraping
AI web scraping > обычный web scraping
  1. Выберите источник AI Agent: Нажмите "See all sources" или перейдите в "Import" -> "Import From Data Sources". Выберите "AI Agent - Site Scraper".
Выбор AI Agent - Site Scraper
Выбор AI Agent - Site Scraper
  1. Настройте источник:

    • Select Template: Найдите и выберите prompt в выпадающем списке "Template". Указанный выше prompt будет загружен автоматически.
    • URL to Scrape: Укажите URL для скрапинга
    • Enable Pagination (Optional): Если результаты находятся на нескольких страницах, включите Enable Pagination и задайте разумный предел Max Pages (например, 10).
    • Customize (Optional): Вы можете выбрать модель AI (например, GPT-4o mini часто экономичен), отредактировать prompt под конкретные нужды или изменить ожидаемые Outputs.
AI web scraping > обычный web scraping
AI web scraping > обычный web scraping
  1. Проверьте Outputs: Нажмите Continue. Datablist покажет поля вывода, определённые в prompt (Project Name, Client Company Name). Нажмите значок + рядом с каждым, чтобы создать соответствующие свойства (столбцы) в вашей коллекции.
Outputs
Outputs
  1. Запустите импорт: Нажмите Run import now. AI Agent начнёт скрапить сайт на основе prompt и заполнять вашу коллекцию.

Цены

Этот источник данных использует Datablist credits по модели pay-as-you-go. Стоимость зависит от сложности сайта и количества посещённых страниц.

Сначала протестируйте запуск AI Agent на одной странице, чтобы оценить стоимость.

FAQ

Как запустить повторный прогон с той же конфигурацией?

После запуска AI Agent нажмите розовую кнопку в правом верхнем углу таблицы данных, чтобы открыть его снова с последними использованными настройками.

Используйте сохранённые настройки агента
Используйте сохранённые настройки агента

Что происходит, если AI Agent пытается открыть защищённый сайт или получает блокировку?

AI Agent автоматически использует прокси-серверы при необходимости для доступа к сайтам с защитой от scraping или географическими ограничениями. Это повышает шанс успешного извлечения данных, хотя очень защищённые сайты всё ещё могут быть сложными.

Сколько данных я могу обработать с AI Agent?

При запуске AI Agent (как обогащения или как источника данных) коллекции Datablist могут обрабатывать до 100 000 элементов (строк). Для больших наборов данных, возможно, потребуется разделить их на несколько коллекций.

Чем AI Agent отличается от обогащений ChatGPT/Claude/Gemini?

Стандартные AI-обогащения (ChatGPT, Claude, Gemini) обрабатывают данные, уже находящиеся в вашей коллекции, используя имеющиеся знания AI. AI Agent может активно взаимодействовать с живым вебом — выполнять Google-поиски, просматривать сайты и извлекать новую информацию на основе вашего prompt.

Насколько точны результаты?

Точность сильно зависит от ясности и конкретики вашего prompt, а также от сложности задачи и доступности информации онлайн. Чёткие инструкции, примеры и правила обработки ошибок улучшают качество. Datablist часто добавляет показатель confidence для ответов AI Agent, чтобы оценивать надёжность.