Scrapes products from retailer websites including product names, prices, categories, and availability.

## Goal
Visit the retailer URL I am going to give you and extract the relevant product and store information.

## Information I want you to extract:

- Product Name
- Product URL (full absolute URL to the product page)
- Brand Name (name of the brand the product is from)
- Price (in the displayed currency, e.g. $49.99)
- Sale Price (if a discount is shown, otherwise return "N/A")
- Product Category (e.g. Electronics, Clothing, Home & Garden)
- Availability (In Stock; Out of Stock; Limited Stock; Pre-Order)
- Rating (out of 5 stars, if displayed)
- SKU / Product ID (usually found in the product URL, e.g. "https://shop.example.com/products/SKN-40221" → SKU is "SKN-40221")
- Image URL (absolute link to the main product image)

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- If prices include tax labels (e.g. "incl. VAT"), return the price without the label
- If a product has multiple variants (sizes, colors), return only the default/first displayed variant

## Additional Instructions:
- Navigate through category pages and product listings to find products
- SKU's are  usually found in the product URL, e.g. "https://shop.example.com/products/SKN-40221" → SKU is "SKN-40221"
- Some retailers use lazy loading or infinite scroll, keep scrolling to load more products
- Do not extract promotional banners, ads, or non-product content
- Important: Do not extract anything else but the requested information

Как использовать этот AI prompt

  1. Создайте новую коллекцию: Начните с создания новой пустой коллекции в Datablist, где будут храниться данные. Нажмите '+ Create new collection' в боковой панели.
AI web scraping > обычный web scraping
AI web scraping > обычный web scraping
  1. Выберите источник AI Agent: Нажмите "See all sources" или перейдите в "Import" -> "Import From Data Sources". Выберите "AI Agent - Site Scraper".
Выбор AI Agent - Site Scraper
Выбор AI Agent - Site Scraper
  1. Настройте источник:

    • Select Template: Найдите и выберите prompt в выпадающем списке "Template". Указанный выше prompt будет загружен автоматически.
    • URL to Scrape: Укажите URL для скрапинга
    • Enable Pagination (Optional): Если результаты находятся на нескольких страницах, включите Enable Pagination и задайте разумный предел Max Pages (например, 10).
    • Customize (Optional): Вы можете выбрать модель AI (например, GPT-4o mini часто экономичен), отредактировать prompt под конкретные нужды или изменить ожидаемые Outputs.
AI web scraping > обычный web scraping
AI web scraping > обычный web scraping
  1. Проверьте Outputs: Нажмите Continue. Datablist покажет поля вывода, определённые в prompt (Project Name, Client Company Name). Нажмите значок + рядом с каждым, чтобы создать соответствующие свойства (столбцы) в вашей коллекции.
Outputs
Outputs
  1. Запустите импорт: Нажмите Run import now. AI Agent начнёт скрапить сайт на основе prompt и заполнять вашу коллекцию.

Цены

Этот источник данных использует Datablist credits по модели pay-as-you-go. Стоимость зависит от сложности сайта и количества посещённых страниц.

Сначала протестируйте запуск AI Agent на одной странице, чтобы оценить стоимость.

FAQ

Как запустить повторный прогон с той же конфигурацией?

После запуска AI Agent нажмите розовую кнопку в правом верхнем углу таблицы данных, чтобы открыть его снова с последними использованными настройками.

Используйте сохранённые настройки агента
Используйте сохранённые настройки агента

Что происходит, если AI Agent пытается открыть защищённый сайт или получает блокировку?

AI Agent автоматически использует прокси-серверы при необходимости для доступа к сайтам с защитой от scraping или географическими ограничениями. Это повышает шанс успешного извлечения данных, хотя очень защищённые сайты всё ещё могут быть сложными.

Сколько данных я могу обработать с AI Agent?

При запуске AI Agent (как обогащения или как источника данных) коллекции Datablist могут обрабатывать до 100 000 элементов (строк). Для больших наборов данных, возможно, потребуется разделить их на несколько коллекций.

Чем AI Agent отличается от обогащений ChatGPT/Claude/Gemini?

Стандартные AI-обогащения (ChatGPT, Claude, Gemini) обрабатывают данные, уже находящиеся в вашей коллекции, используя имеющиеся знания AI. AI Agent может активно взаимодействовать с живым вебом — выполнять Google-поиски, просматривать сайты и извлекать новую информацию на основе вашего prompt.

Насколько точны результаты?

Точность сильно зависит от ясности и конкретики вашего prompt, а также от сложности задачи и доступности информации онлайн. Чёткие инструкции, примеры и правила обработки ошибок улучшают качество. Datablist часто добавляет показатель confidence для ответов AI Agent, чтобы оценивать надёжность.