Comment Scraper Toutes les Études de Cas d'un Site Web (No-Code)

Je peux scraper des centaines d’études de cas en quelques minutes et vous pouvez le faire aussi.

Dans ce guide, je vous montre pas à pas comment scraper efficacement les études de cas et ainsi bâtir une base de données précieuse à des fins de vente, marketing ou de veille concurrentielle.

À la fin du tuto, vous saurez automatiquement extraire non seulement les liens d'études de cas, mais aussi les informations clés comme les détails clients, les données sectorielles et d'autres métriques, le tout proprement structuré.

Voici un workflow en 2 parties qui détaille le process en étapes actionnables :

Dans la première partie, on scrape tous les liens des pages principales où se trouvent les customer stories
Dans la seconde partie on scrape les informations spécifiques qu’on souhaite obtenir

Note : Ce guide montre comment scraper des dizaines ou centaines d’études de cas depuis un même site web. Si vous voulez en scraper 1 ou 2 sur beaucoup de sites, lisez plutôt : Comment scraper des études de cas à grande échelle avec l’IA.

Partie 1 : Scraper tous les liens d'études de cas sur un site web

Étape 1 - Démarrer le scraping des liens d’études de cas

Allez sur Datablist.com et inscrivez-vous.

Créez une collection.

Cliquez sur “Voir toutes les sources”

Datablist propose plus de 12 sources et ça augmente

Choisissez "AI Agent - Site Scraper"

Étape 2 - Configurer l'extraction des liens d’études de cas

On configure notre AI Agent pour extraire tous les liens présents sur la page listant les études de cas.

Commencez par donner le lien vers la page qui regroupe les études de cas.

L’AI Agent de Datablist peut scraper presque n’importe quel site

Ensuite, rédigez un prompt ou utilisez directement notre template :

Configuration du prompt pour scraper des études de cas

Voici mon prompt :

Prompt pour scraper les liens d'études de cas

Je veux que tu extraies tous les liens vers les études de cas présentes sur cette page

===

N’extrais que les liens qui suivent cette structure : "https://www.mazak-customers.com/story/story/......"

===

Aucune introduction
Aucune explication
Aucune réflexion
Juste les liens qui mènent aux études de cas

Veillez à donner un exemple ou un modèle d’URL (ex : www.mazak-customers.com/story/ ou www.salesforce.com/customer-stories/), car parfois l’IA peut aussi retourner des PDF qui ne sont pas exploitées dans ce contexte.

Cochez la case "Enable Pagination" à gauche et fixez un nombre limite de pages à visiter.

Réglages de l’AI Agent pour scraper les études de cas

Configurez vos sorties comme ceci (ou copiez/collez ci-dessous) :

Nom Sortie : Case Study Link
Description Sortie : Lien trouvé sur la page
Type : URL

Configuration des sorties pour l’AI Agent de Datablist

Activez ensuite "Advanced Settings" et là, activez "Website Scraper Option: Render HTML".

Cliquez sur "Continue" pour lancer le scraping.

Réglages avancés pour l’AI Agent de Datablist

Une fois le run terminé, votre collection ressemblera à ceci :

Résultat : Vous voyez chaque lien d’étude de cas dans la colonne "Case Study Link" et la page d’origine dans "Page Scraped".

Liens d'études de cas scrapés avec l'AI Agent Datablist

Maintenant qu’on a tous les liens, passons à l’extraction du contenu de chaque étude de cas.

Partie 2 : Extraire les informations pour chaque étude de cas

Ce workflow est un peu plus avancé mais vous fera gagner beaucoup de temps comparé au manuel — suivez les étapes pas à pas et vous êtes tranquille !

Voici les étapes à suivre :

Visitez 1 ou 2 pages pour analyser la structure des études de cas
Créez un tag pour chaque information à extraire
Rédigez un prompt en donnant des exemples à l’IA
Configurez les sorties recherchées
Lancez l’AI agent pour scraper le contenu de chaque étude de cas

Étape 1 - Analyser et taguer les informations des études de cas

D’abord, visitez une ou deux pages collectées précédemment et définissez les infos que vous voulez (structure, patterns). Ensuite, créez un tag pour chaque info souhaitée, donnez des exemples à l’IA et indiquez où trouver l’info : L’IA sera bien plus performante ainsi.

Parfois, survolez les éléments pour déceler des informations cachées dans les liens (utile pour affiner vos sorties). Par exemple, "VERSATECH" pourrait être une série machine.

Voici une page d’étude de cas et la phase de taggage

💡 Astuce :

Donner des exemples triple la qualité des résultats en sortie

Étape 2 - Configurer le scraping d’infos sur les pages études de cas

Dans cette étape, on configure l’AI agent pour extraire les infos depuis chaque page : prêt ?

Ouvrez votre collection avec les liens d’études de cas (on peut masquer la colonne "Scraped Page" ici). Cliquez ensuite sur "Enrich".

Collection Datablist avec liens études de cas

Rendez-vous dans “AI” et sélectionnez "AI Agent".

Sélection d'une enrichment IA dans Datablist

Copiez ce template de prompt et adaptez-le à votre use case :

Prompt pour extraction d’infos valides depuis une page

Prompt pour extraire les infos d'une page étude de cas

Contexte : J'ai besoin d’informations concernant l'étude de cas sur la page web

===

Ce que je veux : Visite la page (je vais te donner le lien) et extrais les données demandées. Je te décris chaque info tout de suite.

===

Les données à récupérer (avec exemples) :
[Tag info 1] ex : [Exemple 1, Exemple 2, Exemple 3]
[Tag info 2] ex : [Exemple 1, Exemple 2, Exemple 3]
[Tag info 3] ex : [Exemple 1, Exemple 2, Exemple 3]

===

Tu peux accéder à l'étude de cas via ce lien : /Votre colonne

Voici le template avec des exemples :

Contexte : J'ai besoin d’informations concernant l'étude de cas sur la page web

===

Ce que je veux : Visite la page (je vais te donner le lien) et extrais les données demandées. Je te décris chaque info tout de suite.

===

Les données à récupérer (avec exemples) :

Informations Machine :

- Série machine ex : VERSATECH, Dual Turn, CV5-500
- Nom machine ex : VERSATECH V-140N/280, OPTIPLEX 4020 DDL, INTEGREX j-200

Informations Client :

- Secteur client ex : Industrie, Aéronautique, BTP
- Pays client : Allemagne, France, Pays baltes
- Nom client :

===

Tu peux accéder à l'étude de cas via ce lien : /Case Study Link

💡 Pour info : L’AI agent suit très bien les instructions… mais avoir des exemples concrets triple la qualité des résultats.

Après la configuration du prompt (grâce à notre template), configurez vos sorties :

Utilisez le nom du tag comme "Output Name"
Ajoutez une description claire en "Output Description" (mettez des exemples)
Choisissez le bon "Output Type"
Cliquez sur "More" pour ajouter d’autres sorties

Configuration des sorties pour scraper les études de cas avec Datablist

Quand vous avez tout configuré, cliquez sur "Continue to outputs configuration".

Dernière étape avant la configuration des colonnes

Cliquez sur les "+" pour ajouter une colonne par sortie, puis "Instant Run" pour lancer le scraping.

Configuration des colonnes Datablist pour scraper les études de cas

Voici le résultat final : toutes les études de cas enrichies !

Collection Datablist avec études de cas enrichies

Foire Aux Questions sur le Scraping d’Études de Cas

Comment scraper légalement des études de cas sur un site ?

Le scraping de données publiques est légal tant que vous respectez le droit d’auteur et ne violez pas les conditions d’utilisation du site.

Quels outils pour scraper les études de cas ?

Des outils no-code comme Datablist font le travail sans besoin de coder.

Combien de temps ça prend de scraper un site ?

Avec Datablist, comptez quelques minutes à quelques heures pour des centaines d’études de cas. La configuration initiale (comprendre le site) prend 15-30mn.

Puis-je scraper n’importe quel site ?

Non, certains sites protègent leurs contenus (anti-bot, conditions strictes).

Quelles infos extraire d’une étude de cas ?

Tout : noms clients, secteurs, défis, solutions, résultats, témoignages, dates, métriques… L’essentiel est d’identifier des patterns sur la page pour automatiser l’extraction.