Vous gérez une base de données B2B. Vous avez des noms d'entreprises, peut-être des villes, mais il vous manque l'essentiel : l'identifiant unique.

En France, c'est le numéro SIREN ou SIRET. Sans lui, impossible de dédoublonner vos fichiers, de vérifier la solvabilité d'un prospect ou simplement d'importer vos données proprement dans votre CRM.

Vous pouvez également obtenir le numéro de TVA en utilisant le numéro SIREN.

La méthode manuelle est un enfer. Copier le nom, coller dans Google, ouvrir https://www.google.com/search?q=Nom site:societe.com ou Pappers, copier le SIREN, revenir dans Excel, coller. Répétez l'opération 500 fois. Vous venez de perdre votre journée.

Il existe une meilleure solution. Une solution simple, fiable et automatisée.

Nous allons utiliser l'API Recherche d'Entreprises de l'État français (Data Gouv) combinée à Datablist pour traiter vos fichiers CSV en masse.

Pas besoin de savoir coder. Pas besoin de payer des crédits coûteux.

Accès rapide

Pourquoi l'API Data Gouv est une mine d'or

L'État français a ouvert ses données. C'est une excellente nouvelle pour les opérations de données (Data Ops). L'API "Recherche d'Entreprises" est publique, gratuite et extrêmement performante. Elle tape directement dans le Répertoire National des Entreprises (RNE).

Contrairement à des bases de données privées qui peuvent être obsolètes, cette source est la référence officielle.

L'API permet de faire de la recherche textuelle. Vous lui donnez "Decathlon", elle vous répond avec les détails juridiques de l'entreprise.

Malheureusement, interroger une API ligne par ligne demande normalement des compétences techniques (Python, scripts, gestion des erreurs).

C'est ici que Datablist intervient. Datablist agit comme un connecteur intelligent. Il prend votre fichier CSV, envoie chaque ligne à l'API Data Gouv, récupère la réponse et la range proprement dans vos colonnes. Le tout gère automatiquement les limitations de vitesse (rate limits) pour que vous ne soyez jamais bloqué.

Comprendre la logique de l'enrichissement

Avant de passer à la pratique, regardons ce qui se passe sous le capot. Cela vous aidera à affiner vos recherches.

Nous allons utiliser le point de terminaison (endpoint) suivant : https://recherche-entreprises.api.gouv.fr/search

Pour obtenir le bon résultat, nous passons plusieurs paramètres :

  1. q (Query) : C'est le texte de recherche. Dans votre cas, le nom de l'entreprise (ex: "Renault").
  2. per_page=1 : Nous voulons seulement le premier résultat, celui que l'algorithme juge le plus pertinent. Inutile de récupérer 50 lignes par entreprise.
  3. page=1 : On reste sur la première page.
  4. sort_by_size=true : C'est l'astuce secrète. Si vous cherchez "Carrefour", il existe des milliers de petits magasins franchisés. En triant par taille d'effectif, l'API vous remontera le siège social ou la holding en premier. C'est crucial pour la qualité de vos données.

L'URL finale ressemblera à ceci pour chaque ligne : https://recherche-entreprises.api.gouv.fr/search?page=1&per_page=1&sort_by_size=true&q=VotreNomEntreprise

Datablist va générer cette URL dynamiquement pour chaque ligne de votre fichier.

📘 Recherches avancées

L API permet d affiner par commune, par région, par code NAF et par d autres critères.
Consultez la documentation de l API Recherche d Entreprises pour voir la liste complète des filtres disponibles.

Guide : Récupérer les SIREN/SIRET étape par étape

Suivez ce guide pour transformer votre liste de noms en base de données qualifiée.

Étape 1 : Importez votre fichier

Commencez par créer une nouvelle collection dans Datablist. Importez votre fichier CSV ou Excel contenant les noms des entreprises. Si votre fichier est "sale" (espaces en trop, caractères bizarres), n'hésitez pas à faire un premier nettoyage.

Assurez-vous que Datablist a bien identifié votre colonne contenant le nom des sociétés. C'est la seule information obligatoire pour ce processus. Une fois le fichier chargé, vous avez votre vue tabulaire classique.

Charger Fichier CSV/Excel
Charger Fichier CSV/Excel

Étape 2 : Sélectionnez le modèle Data Gouv

Datablist propose des "Enrichissements". C'est une fonctionnalité qui connecte vos données à des services tiers. Pour vous simplifier la vie, un modèle (template) pré-configuré existe déjà pour la France.

Cliquez sur le bouton "Enrich" dans la barre d'outils. Allez dans l'onglet "Templates". Cherchez ou sélectionnez [France] Retrieve Official Company Details from Data Gouv.

Ce modèle utilise l'outil générique "Call API" de Datablist mais avec tous les paramètres déjà remplis pour vous.

Utilisation du Template
Utilisation du Template

Étape 3 : Configurez la recherche

Le panneau de configuration s'ouvre. Vous verrez l'URL de l'API déjà saisie. Votre travail consiste à dire à Datablist quelle colonne de votre fichier correspond au paramètre de recherche q.

Dans le champ URL, repérez la variable pour la requête. Sélectionnez votre colonne "Nom de l'entreprise" (ou "Company Name") en tapant / pour remplacer la variable dynamique.

Vérifiez que l'option sort_by_size=true est bien présente dans les paramètres. Cela garantit que vous ciblez les structures importantes et non les établissements secondaires obscurs.

Vous pouvez aussi ajouter d autres filtres dans l URL de l API. Si ces filtres utilisent des données dynamiques provenant de votre liste, utilisez / pour sélectionner les colonnes.

Configuration API
Configuration API

Étape 4 : Définissez les données à récupérer

L'API Data Gouv renvoie énormément d'informations sous forme de JSON. Datablist doit savoir quoi garder. Le modèle est configuré pour extraire:

  • le numéro SIREN
  • Nom Complet
  • Raison Sociale
  • Categorie Entreprise
  • Siret
  • Adresse Siege
  • Code Naf

La configuration se fait en indiquand le chemin dans le JSON. Par exemple: le chemin JSON pour le SIREN est sous la forme results[0].siren. Pour l'adresse, ce sera results[0].siege.adresse.

Dans les données disponibles mais a configurer en plus, vous pouvez avoir :

  • Sigle (results[0].sigle) : abréviation officielle de l'entreprise. Utile pour reconnaître une marque connue sous un nom court comme EDF, SNCF ou BNP.
  • Nature Juridique (results[0].nature_juridique): SAS, SARL, association. Utile pour la facturation.
  • siege.etat_administratif : A pour actif, F pour fermé. Indispensable pour éviter les sociétés mortes.
  • Organisme de formation (results[0].complements.est_organisme_formatiom): savoir si c’est un centre de formation.
  • Tranche effectif salarié (results[0].tranche_effectif_salarie) : taille approximative de l’équipe.
  • Année tranche effectif salarié (results[0].annee_tranche_effectif_salarie) : pour savoir si l’info est récente.
  • Caractère employeur (results[0].caractere_employeur) : l’entreprise emploie du personnel ou non.
  • Date création (results[0].date_creation) : âge de l’entreprise.
  • Date fermeture (results[0].date_fermeture) : pour détecter les structures radiées.
  • Date mise à jour INSEE (results[0].date_mise_a_jour_insee) : fraîcheur des données.

Allez dans la section "Outputs" (Sorties).

Ici, vous mappez les champs de la réponse API vers les colonnes de votre collection.

Si les colonnes n'existent pas encore dans votre collection, créez-les à la volée en cliquant sur le bouton "+" à côté du champ de mapping. Utilisez le raccourci "Add all X outputs to collection" pour ajouter l’ensemble des champs.

Etape "Outputs"
Etape "Outputs"
Ajouter les "Outputs"
Ajouter les "Outputs"

Étape 5 : Lancez un test sur un échantillon

Ne lancez jamais un enrichissement sur 10 000 lignes sans tester. L'erreur est humaine, et une mauvaise configuration pourrait remplir votre base de données avec des erreurs.

Datablist propose une fonction "Run on sample". Cela va traiter uniquement les 10 premières lignes affichées (ou les 10 premières lignes de votre filtre actuel).

Cliquez sur "Run on 10 items". Une notification de progression apparait. Datablist interroge l'API pour chaque ligne.

Lancement de l'enrichissement
Lancement de l'enrichissement
Test sur un échantillon
Test sur un échantillon

Étape 6 : Vérifiez les résultats

Une fois le test terminé, fermez la fenêtre d'enrichissement et regardez votre tableau.

Les colonnes SIREN, Adresse ou Code NAF se sont-elles remplies ? Les données correspondent-elles aux entreprises visées ?

Si vous voyez des incohérences, c'est souvent dû à des noms d'entreprises trop vagues dans votre fichier source. Par exemple, chercher juste "Consulting" ne donnera rien de bon. Plus votre nom source est précis, meilleur sera le résultat.

Si tout semble correct, félicitations. Votre configuration est valide.

Validation Résultats Echantillon
Validation Résultats Echantillon

Étape 7 : Lancez l'enrichissement complet

Rouvrez le menu d'enrichissement. Cette fois, lancez le processus sur toute la collection ("Run on all items").

Datablist va traiter l'ensemble de votre fichier. Vous pouvez aller prendre un café. Le système gère les pauses nécessaires pour respecter les quotas de l'API Data Gouv. Une fois terminé, vous pouvez exporter votre fichier propre et enrichi au format CSV ou Excel pour l'utiliser dans vos autres outils.

Résultats
Résultats

Ajoutez le numéro de TVA en masse à partir du SIREN

Beaucoup pensent qu'il faut payer ou interroger une API pour obtenir le numéro de TVA intracommunautaire. C'est faux.

Pour les entreprises françaises, le numéro de TVA n'est pas une donnée aléatoire. C'est une simple dérivation mathématique du numéro SIREN. Si vous avez le SIREN, vous avez la TVA.

La formule est standardisée : TVA = FR + Clé de contrôle + SIREN

La clé se calcule avec une opération "Modulo 97" (le reste de la division euclidienne par 97) : Clé = (12 + 3 × (SIREN modulo 97)) modulo 97

Inutile de sortir votre calculatrice ou de faire des formules Excel complexes. Datablist possède un outil d'édition par IA capable d'appliquer cette logique sur toute votre colonne.

  1. Cliquez sur le menu "Edit" puis AI Editing.
  2. Copiez-collez le prompt ci-dessous pour générer le numéro de TVA automatiquement.
  3. Indiquez votre colonne contenant les numéros SIREN avec /

AI Editing
AI Editing
Prompt
Prompt

Prompt à utiliser
Crée une nouvelle colonne nommée "TVA Intracommunautaire".
Pour chaque ligne, calcule le numéro de TVA français à partir de la colonne SIREN.
Applique l'algorithme suivant :
1. Calcule la clé = (12 + 3 * (SIREN % 97)) % 97
2. Si la clé est inférieure à 10, ajoute un "0" devant (ex: 5 devient 05).
3. Concatène "FR" + Clé + SIREN.

Exemple : Pour le SIREN 321234567, la clé calculée est 80, le numero de TVA doit être FR80321234567.
Preview
Preview

L'IA va générer un script de transformation et remplir votre nouvelle colonne instantanément. C'est gratuit, immédiat et 100% fiable car basé sur l'algorithme officiel.

Numero TVA Résultats
Numero TVA Résultats

Cas d'usages concrets

Pourquoi faire cet effort ? Voici comment nos utilisateurs exploitent cette technique au quotidien.

Nettoyage de CRM (Salesforce, HubSpot)

Vos commerciaux rentrent des données à la va-vite. Résultat : des doublons. "Total Energies", "Total", "TotalEnergies SE" sont trois fiches différentes dans votre CRM. En récupérant le SIREN pour chaque fiche, vous obtenez une clé unique. Vous pouvez alors fusionner les doublons avec une certitude absolue. Un CRM propre, c'est des commerciaux plus efficaces.

Qualification de leads (Lead Gen)

Vous avez scrapé une liste de prospects sur LinkedIn. Vous avez le nom de la boite, mais pas sa taille ni son secteur précis. En passant par l'API Data Gouv, vous récupérez le code NAF (Activité) et la tranche d'effectifs. Vous pouvez alors filtrer : "Je ne veux contacter que les entreprises de logistique de plus de 50 salariés". Votre ciblage devient chirurgical.

Vérification fournisseurs (Compliance)

Le département comptable doit vérifier l'existence légale de milliers de fournisseurs avant de valider des paiements. Automatiser la récupération du SIREN et de l'état administratif (actif/fermé) permet de détecter immédiatement une société radiée ou fictive. C'est une sécurité indispensable contre la fraude.

Aller plus loin avec Datablist

Cette méthode utilise le template Data Gouv, mais la logique est la même pour n'importe quelle API. Datablist est un couteau suisse pour la donnée.

Si vous manipulez des fichiers CSV régulièrement, maîtriser le filtrage est essentiel avant d'enrichir. Apprenez à segmenter vos données pour n'enrichir que ce qui est nécessaire. Par exemple, filtrez les lignes qui ont déjà un SIREN pour ne pas gaspiller de temps de traitement. Pour en savoir plus sur la manipulation de fichiers, consultez notre guide sur le filtrage de fichiers CSV.

De même, si vos données d'entrée sont issues du web, un bon nettoyage préalable augmente le taux de succès de l'API (suppression des "SARL", "SAS" dans les noms pour simplifier la recherche). Des techniques de nettoyage de données peuvent être appliquées directement dans l'outil.

Conclusion

Trouver des numéros SIREN ne devrait pas être une corvée manuelle. En combinant la puissance de l'Open Data français et l'agilité de Datablist, vous transformez une tâche de plusieurs jours en une opération de quelques minutes.

C'est gratuit (côté API), c'est fiable et c'est évolutif. Que vous ayez 100 ou 100 000 lignes, le processus reste le même.

Prêt à nettoyer vos bases ? Créez votre compte Datablist et lancez votre premier enrichissement.

FAQ

L'API Data Gouv est-elle vraiment gratuite ?

Oui. L'API Recherche d'Entreprises est un service public gratuit fourni par l'État français (Etalab/INSEE). Il n'y a pas de coût caché par requête.

Y a-t-il une limite de nombre de requêtes ?

L'API applique des "rate limits" (limitation de vitesse) pour garantir la stabilité du service pour tout le monde. La limite actuelle est de 7 requetes par seconde.

La bonne nouvelle, c’est que Datablist gère cela pour vous. Si l’API renvoie une erreur, Datablist attend puis réessaie automatiquement.

Que faire si l'API ne trouve pas la bonne entreprise ?

Cela arrive si le nom dans votre CSV est très différent du nom officiel. "La Pizzeria du Coin" est peut-être enregistrée sous le nom "M. Dupont EURL". L'option sort_by_size=true aide beaucoup pour les grandes structures, mais pour les TPE, l'adresse (si vous l'avez) peut aider à désambiguïser. Vous pouvez modifier l'URL de l'API pour inclure un code postal dans la recherche &code_postal=75001.

Puis-je récupérer les dirigeants ou les bilans financiers ?

L'API Recherche d'Entreprises se concentre sur l'identité légale. Pour les dirigeants ou les données financières détaillées, d'autres API (parfois payantes ou nécessitant des comptes spécifiques comme l'API Pappers ou l'API INPI) peuvent être connectées via le module "Call API" générique de Datablist.