Scrapes agency listings from Clutch.co including company names, ratings, services, pricing, and profile links

## Goal
Visit the Clutch.co URL I am going to give you and extract the agency information.

## Information I want you to extract:

- Company Name
- Clutch Profile URL (full absolute URL to the company profile page, e.g. https://clutch.co/profile/company-name)
- Tagline / Summary (the short description shown below the company name)
- Min. Project Size (e.g. $10,000+, $25,000+)
- Avg. Hourly Rate (e.g. $25 - $49 / hr)
- Employee Count (e.g. 10 - 49, 50 - 249, 250 - 999)
- Location (city and country as displayed, e.g. Denpasar, Indonesia)
- Rating (overall star rating out of 5.0)
- Number of Reviews (total number of reviews shown)
- Primary Service (the service with the highest percentage, e.g. "40% UX/UI Design")
- All Services (comma-separated list of all services provided, e.g. "UX/UI Design, Custom Software Development, Mobile App Development")
- Verified Status (Premier Verified, Verified, or Not Verified)

## How to handle pagination:
- The pagination on Clutch.co is done using the "?page=X" URL parameter
- Example: https://clutch.co/id/agencies/ui-ux?page=2, https://clutch.co/id/agencies/ui-ux?page=3
- Use this parameter to navigate through all pages of results

## How to handle data inconsistencies:
- Return only one piece of information for each type
- Return "N/A" if the data isn't available
- For ratings, return the numeric value (e.g. "4.8") not the star icons
- If a company has no reviews yet, return "0" for Number of Reviews and "N/A" for Rating
- For the Primary Service, always include the percentage (e.g. "40% UX/UI Design")
- For All Services, list them without percentages, separated by commas

## Additional Instructions:
- Extract information from the listing cards on the search results page
- Do not navigate into individual company profiles, extract only what is visible on the listing page
- Skip sponsored/featured banners that are not actual company listings
- Some listings may show a "Serves [Location]" instead of a physical location, extract that as the Location value
- Important: Do not extract anything else but the requested information

このAIプロンプトの使い方

  1. 新しいコレクションを作成:データを保存する空の新規コレクションをDatablistで作成します。サイドバーの '+ Create new collection' をクリックしてください。
AI Web Scraping > 通常のWeb Scraping
AI Web Scraping > 通常のWeb Scraping
  1. AI Agent Source を選択:「See all sources」をクリックするか、「Import」->「Import From Data Sources」へ進みます。「AI Agent - Site Scraper」を選択します。
AI Agent - Site Scraper を選択
AI Agent - Site Scraper を選択
  1. ソースを設定

    • テンプレートを選択:「Template」ドロップダウンからプロンプトを選びます。上記のプロンプトが自動で読み込まれます。
    • スクレイプするURL:スクレイプしたいURLを入力します。
    • ページネーションを有効化(任意):結果が複数ページにわたる場合は Enable Pagination にチェックを入れ、適切な Max Pages(例:10)を設定します。
    • カスタマイズ(任意):AIモデルを調整(例:GPT-4o miniは費用対効果が高いことが多い)、プロンプトをニーズに合わせて編集、または期待するOutputsを変更できます。
AI Web Scraping > 通常のWeb Scraping
AI Web Scraping > 通常のWeb Scraping
  1. 出力を確認Continue をクリックします。プロンプトで定義された出力フィールド(Project Name、Client Company Name)が表示されます。各項目の横にある + アイコンをクリックして、コレクションに対応するプロパティ(列)を作成します。
出力
出力
  1. インポートを実行Run import now をクリックします。AIエージェントがプロンプトに基づいてWebサイトをスクレイプし、コレクションにデータを投入します。

料金

このデータソースは従量制でDatablistクレジットを使用します。費用はWebサイトの複雑さや訪問ページ数に応じて変動します。

まず1ページでAIエージェントを試し、概算コストを確認することをおすすめします。

FAQ

同じ設定で再実行するには?

AIエージェントの実行後、データテーブル右上のピンクのボタンをクリックすると、直前の設定で再度開けます。

既存のエージェント設定を使う
既存のエージェント設定を使う

AIエージェントが保護されたサイトにアクセスしようとしてブロックされた場合は?

AIエージェントは必要に応じて自動的にプロキシサーバーを利用し、スクレイピング対策や地域制限のあるサイトへのアクセスを試みます。これにより成功率は高まりますが、非常に厳格に保護されたサイトでは課題が残る場合があります。

AIエージェントでどれくらいのデータを処理できますか?

AIエージェント(エンリッチメントまたはデータソースとして)実行時、Datablistのコレクションは最大100,000アイテム(行)まで処理できます。これより大きいデータセットでは、複数のコレクションに分割する必要がある場合があります。

AIエージェントはChatGPT/Claude/Geminiのエンリッチメントとどう違いますか?

標準のAIエンリッチメント(ChatGPT、Claude、Gemini)は、コレクション内の既存データをAIの既存知識で処理します。AIエージェントはライブのWebと能動的にやり取りし、Google検索、Webサイトの閲覧、プロンプトに基づく新規情報の抽出が可能です。

結果の精度はどの程度ですか?

精度は、プロンプトの明確さ・具体性、タスクの複雑さ、オンラインで利用可能な情報に大きく依存します。明確な指示、例、エラー時の取り扱いルールを与えることで結果が向上します。DatablistではAIエージェントの出力に信頼度スコアを付与することがあり、信頼性の判断に役立ちます。