Si vous construisez des listes de prospects à partir de données issues du scraping, vous vous retrouvez très vite confronté à ce problème : Comment nettoyer et normaliser ces données ?

Si vous avez testé Google Sheets, vous savez que cet outil n’est clairement pas fait pour ça.

Des données issues de LinkedIn proposent un champ "full name", d’autres sources séparent prénom et nom. Les adresses email comportent parfois des fautes dues au scraping. Les dates sont dans des formats différents, etc.

Avec ce guide, vous allez pouvoir résoudre 99% des problèmes liés au nettoyage des données scrapées. Et pour le 1% restant, contactez-moi, je peux vous aider 👨‍💻

Voici un résumé des opérations de nettoyage abordées dans cet article :

Importer depuis un CSV ou coller vos données

Datablist est l’outil idéal pour nettoyer vos données. C’est un éditeur CSV en ligne doté de fonctions de nettoyage, d’édition en masse et d’enrichissements. Il gère des collections allant jusqu’à plusieurs millions de lignes.

Ouvrez Datablist, créez une collection et importez votre fichier CSV contenant vos données issues du scraping.

Pour créer une nouvelle collection, cliquez sur le bouton + dans la barre latérale. Puis cliquez sur "Importer CSV/Excel" pour charger votre fichier. Ou accédez rapidement à l’import depuis la page d’accueil.

Créer une collection
Créer une collection

Détection automatique du format

L’assistant d’import de Datablist détecte automatiquement les adresses emails, les Datetimes au format ISO 8601, les Booleans, les Numbers, les URLs, etc. dès qu'ils sont bien formatés.

Détection automatique du type
Détection automatique du type

Si vos données demandent une analyse plus poussée (format de date différent, erreurs dans les URLs ou adresses email), importez-les en tant que propriété Texte. Vous verrez dans la section suivante comment convertir vos propriétés texte en Datetime, Boolean ou Number.

Sélectionner le type de données
Sélectionner le type de données

Convertir du texte en date, boolean, number

Marie Kondo disait « La vie commence dès que vous avez rangé la maison ». Pour la data, c’est pareil : « Le business commence quand vos données sont rangées ! » 😅

Filtrer selon une date (date de création, de levée de fonds…), un nombre (prix, effectif, etc.) ou un boolean est bien plus simple quand la donnée est au bon format, pas juste du texte.

Ouvrez l’outil "Text to Datetime, Number, Checkbox" dans le menu "Clean".

Convertir du texte en types de données
Convertir du texte en types de données

Convertir n'importe quel texte en Date

La norme internationale des dates s’appelle ISO 8601. Si vos champs sont déjà dans ce format, l’import dans Datablist créera directement une propriété Datetime.

Pour les autres formats, vous devrez indiquer le format utilisé : Datablist convertit alors vos valeurs de date en valeurs Datetime structurées.

Sélectionnez la propriété à convertir, puis "Convert to Datetime".

Convertir texte en Datetime
Convertir texte en Datetime

Les formats de dates courants (Google Sheets, Excel…) sont proposés, ou sélectionnez "Format personnalisé".

Format Datetime personnalisé
Format Datetime personnalisé
Aperçu conversion date
Aperçu conversion date

👉 Découvrez notre documentation sur les formats de date personnalisés.

Créer des cases à cocher (Boolean) à partir de texte

Datablist convertit automatiquement les colonnes "Yes, No", "TRUE, FALSE", etc. en cases à cocher à l’import. Utilisez l’outil pour les cas complexes.

Indiquez les valeurs (séparées par une virgule) à convertir en case cochée. Les autres resteront décochées.

Conversion Checkbox
Conversion Checkbox
Aperçu conversion Checkbox
Aperçu conversion Checkbox

Extraire les valeurs numériques d'un texte

Utilisez le convertisseur "Texte en nombre" pour :

  • Normaliser la saisie avec les bons séparateurs (virgule, point, espace)
  • Extraire les chiffres d’un texte contenant aussi des lettres
Conversion Number
Conversion Number
Aperçu conversion Number
Aperçu conversion Number

👉 Consultez notre documentation détaillée sur la conversion des nombres.

Nettoyer les données

Convertir HTML en texte brut

Les outils de scraping extraient du code HTML et vos champs contiennent parfois des balises HTML.

Les codes HTML intègrent liens, images, listes à puces, paragraphes, etc.

Le but ? Garder la structure offerte par le HTML, mais transformer un code illisible en texte brut propre.

Le convertisseur HTML -> Texte de Datablist préserve les retours à la ligne, transforme les listes à puces en listes préfixées par -.

Pour transformer un texte HTML en texte lisible, ouvrez "Bulk Edit" dans le menu "Edit".

Menu Bulk Edit
Menu Bulk Edit

Sélectionnez la propriété à traiter puis l’option "Convert HTML into plain text".

Bulk Edit Convertir HTML
Bulk Edit Convertir HTML
Conversion HTML vers texte
Conversion HTML vers texte
Résultat HTML converti
Résultat HTML converti

Supprimer les espaces superflus

Autre souci typique du scraping : les espaces ou lignes vides. Tabulations, espaces, nouveaux paragraphes…

Datablist propose un outil de nettoyage pour supprimer les espaces inutiles :

  • Suppression des espaces en trop entre les mots
  • Suppression des lignes vides
  • Suppression des espaces devant/derrière chaque ligne

Ouvrez "Bulk Edit" via le menu "Edit". Sélectionnez votre propriété et l’action "Remove extra spaces".

Configuration suppression espace
Configuration suppression espace
Avant suppression espaces
Avant suppression espaces
Résultat suppression espaces
Résultat suppression espaces

Nettoyer la casse d’un texte

Pour gérer la casse (majuscule/minuscule), ouvrez "Bulk Edit" dans "Edit".

Sélectionnez la propriété à traiter puis l’action "Change text case".

Changer la casse du texte
Changer la casse du texte

4 modes :

  • Majuscules – Tout le texte est en MAJUSCULES. Ex : johnJOHN
  • Minuscules – Tout le texte passe en minuscule. Ex : APIapi
  • Capitalisation – Toutes les premières lettres de chaque mot sont en majuscule. Ex : john is a good manJohn Is A Good Man
  • Première lettre – Seule la première lettre du premier mot est en majuscule. Ex : john is a good manJohn is a good man

Supprimer les symboles indésirables des textes

Des textes scrapés, ou des saisies utilisateurs (ex : titres LinkedIn) contiennent parfois des symboles, emojis ou caractères spéciaux qui polluent votre traitement. Un simple smiley à la fin d’un nom peut bloquer votre algorithme de déduplication.

Datablist intègre une fonction native pour supprimer tous les symboles non textuels.

Cliquez sur "Bulk Edit" dans "Edit", choisissez une propriété texte puis "Remove symbols".

Retirer symboles
Retirer symboles

Si l’aperçu vous convient, lancez la transformation.

Résultat suppression symboles
Résultat suppression symboles

Normaliser avec Recherche & Remplacement (Find and Replace)

Pour travailler vos listes de prospects, il faut normaliser vos données :

  • Normaliser les intitulés de poste
  • Normaliser pays, villes
  • Uniformiser les URLs
  • Etc.

L’objectif : transformer un champ texte libre en un champ normalisé, ou transformer des textes complexes (URL complètes) en version standardisée (domaine principal).

Datablist propose pour ça une fonction Recherche & Remplacement avancée, compatible avec les regex (expressions régulières).

Quelques exemples pour nettoyer vos données :

Supprimer les paramètres d’URL (query params)

Les URL scrapées comportent souvent des paramètres inutiles. Les enlever vous permet d’obtenir des URL propres et facilite la déduplication par URL.

Pour les supprimer, cochez "Match using regular expression" puis utilisez cette regex avec une valeur de remplacement vide :

\?.*$
Regex pour query params
Regex pour query params

Appliquez sur vos propriétés d’URL.

Aperçu query params supprimés
Aperçu query params supprimés

Extraire un domaine d’email

Un autre usage : obtenir le domaine d’un email avec une regex.

Dupliquez d’abord la propriété email. Puis :

^(\w)*@
Regex pour domaine email
Regex pour domaine email
Aperçu domaines extraits
Aperçu domaines extraits

👉 Plus d’infos dans notre doc sur Find and Replace.

Scinder un nom complet en prénom et nom de famille

Lorsque vous scrapez des listes de leads, vous obtenez un champ "Full Name" qu’il faut séparer en "Prénom" et "Nom". Faire ce découpage correctement est crucial.

Séparer prénom/nom permet d’être plus personnel en cold emailing, de trouver le genre du contact, ou d’obtenir un titre académique.

La séparation n’est pas toujours simple. Heureusement, Datablist intègre un outil qui découpe "Name" en deux valeurs selon l’espace.

Démarrez l’outil "Split Property" du menu "Edit".

Outil Split Property
Outil Split Property

Sélectionnez la propriété à parser. Indiquez Espace comme séparateur. Saisissez 2 pour le nombre maximum de parties.

Configurer Split Property
Configurer Split Property

Lancez l’aperçu. Datablist traite les 10 premières entrées. Si le résultat est OK, cliquez "Split Property".

Aperçu scission prénom/nom
Aperçu scission prénom/nom

Renommez les deux propriétés créées en "First Name" & "Last Name".

Résultat prénom/nom séparés
Résultat prénom/nom séparés

Cet exemple part d’un nom typiquement occidental (prénom puis nom). Si vos données comportent d’autres conventions (plusieurs prénoms, titres, suffixes), il faudra adapter l’algorithme.

Dédoublonnage des données

Datablist propose un moteur de déduplication hyper efficace. Vous pouvez détecter des lignes similaires sur une ou plusieurs colonnes, et fusionner automatiquement sans perdre de données.

Pour lancer la déduplication, cliquez sur "Duplicate Finder" dans le menu "Clean".

Duplicate Finder
Duplicate Finder

Choisissez les propriétés de comparaison.

Dans les résultats, lancez l’"Auto Merge" avec l’option "Merge non-conflicting duplicates". Les doublons faciles sont fusionnés, et les conflits sont listés.

L’algorithme propose deux options pour les conflits : "Combine conflicting properties" (valeurs séparées par un délimiteur) ou suppression au profit du master item.

Fusion automatique des doublons
Fusion automatique des doublons

👉 Voir notre guide 'Supprimer les doublons sur CSV'.

Valider les adresses email

Les données scrapées sont parfois anciennes, erronées, ou invalides. C’est spécialement vrai pour les adresses email.

Lorsque la donnée est saisie par l’utilisateur, vous pouvez avoir des emails fake, ou des adresses de fournisseurs temporaires.

Datablist intègre une validation d’emails qui vérifie des milliers d’emails en un clic.

Cliquez sur "Enrich"
Cliquez sur "Enrich"

La vérification propose :

  • Analyse syntaxique de l’email – Vérifie la conformité avec la norme IEFT et analyse la structure (présence du @, domaine valide, etc.)
  • Détection des fournisseurs jetables – Identifie les emails de type Mailinator, Temp-Mail, YopMail…
  • Vérification des MX du domaine – Vérifie si le domaine est existant et possède bien des enregistrements MX (serveur mail). En cas d’absence, l’email est déclaré invalide.
  • Segmentation email pro/perso – Pour distinguer business emails et emails personnels parmi vos leads ou utilisateurs.
Résultats de vérification email
Résultats de vérification email

👉 Voir notre guide : nettoyer une liste email.

Extraire des noms de personne ou d’entreprise de textes scrapés

En scrapant des textes, il est très utile de pouvoir isoler des noms de personnes ou d’entreprises. Ces infos permettent d’enrichir vos leads, d’analyser la concurrence… Mais extraire des noms dans du texte libre est complexe : conventions de nom différentes selon les pays, abréviations, titres, fautes, etc.

Une méthode consiste à utiliser la reconnaissance d’entités nommées (Named Entity Recognition ou NER), une technique IA/NLP qui repère et classe les entités (personne, entreprise, lieu…). Les modèles NER sont entraînés pour gérer plusieurs langues et variations.

Datablist propose un enrichment "Named Entity Recognition" (NER) directement sur vos textes. Il est entraîné en arabe, allemand, anglais, espagnol, français, italien, letton, néerlandais, portugais et chinois !

Choisissez "Entity name extraction" dans le menu "Enrichments".

Extraction des entités nommées
Extraction des entités nommées

Dans l’input, sélectionnez la colonne texte à analyser.

Configurer l’extracteur d’entités
Configurer l’extracteur d’entités

Pour chaque type de nom extrait, cliquez sur "Create a new property".

L’extracteur NER Datablist détecte :

  • Organization Name : Entreprises, organismes...
  • Person Name : Noms ou prénoms et noms combinés
  • Location : Villes, pays, lieux
Ajouter propriété pour stocker les noms
Ajouter propriété pour stocker les noms

Lancez l’enrichment.

Besoin d’aide pour nettoyer vos données ?

Je cherche toujours des cas d’usage ou problèmes à traiter. Contactez-moi pour partager vos besoins.