Le data cleaning (nettoyage de données) n'est plus réservé aux data analysts. Si vous gérez une liste de prospects, utilisez des données scrappées dans vos processus, ou consolidez diverses sources de données, alors vous avez conscience de l’importance d’un data cleaning efficace.
Google Sheets et Excel suffisent pour les opérations simples mais montrent vite leurs limites pour consolider ou dédoublonner des données.
Dans ce guide, découvrez comment utiliser Datablist, un outil en ligne gratuit pour nettoyer et normaliser vos données.
Voici un résumé rapide des opérations de nettoyage présentées dans cet article :
- Convertir du texte en Date, Nombre, Boolean
- Convertir du HTML en texte brut (enlever les balises HTML)
- Supprimer les espaces en trop dans les textes
- Normaliser vos données
- Supprimer les symboles dans les textes
- Diviser un nom complet en prénom et nom
- Dédoublonner les éléments
- Extraire les adresses email, URLs, etc. des textes
- Utiliser les expressions régulières pour filtrer et valider les données
- Écrire des transformations personnalisées en JavaScript
- Valider les adresses e-mails
Importer des données depuis un CSV ou en copier/coller
Datablist est l'outil idéal pour nettoyer vos données. C’est un éditeur CSV en ligne doté de fonctionnalités de nettoyage, d’édition en masse et d’enrichissement. Et il gère des collections de millions d’items.
Ouvrez Datablist, puis chargez vos collections de données.
Pour créer une nouvelle collection, cliquez sur le bouton +
dans la barre latérale et choisissez « Importer CSV/Excel » pour charger votre fichier. Vous pouvez aussi utiliser le raccourci sur la page de démarrage pour passer directement à l’import de fichier.
Détection automatique du format
L’assistant d’import de Datablist détecte automatiquement les adresses email, dates (format ISO 8601), booleans, nombres, URLs, etc. lorsqu'ils sont bien formatés.
Si vos données nécessitent une analyse plus avancée (format de date différent, fautes de frappe dans les URLs ou emails), importez-les comme propriété de type « Texte ». Je vous montre comment convertir ensuite en date, boolean ou nombre dans la section suivante.
Convertir du texte en date, boolean, nombre
Marie Kondo dit « La vie commence vraiment une fois qu’on a mis de l’ordre chez soi ». Pour vos données, c’est pareil : « La prospection commence vraiment une fois que vos données sont en ordre » ! 😅
Filtrer sur une date (date de création, de levée...), un nombre (prix, effectif), ou un boolean est tellement plus facile quand la donnée est au bon format — et pas juste un texte.
Ouvrez l’outil « Texte vers Date, Nombre, Checkbox » dans le menu "Nettoyer".
Convertir n’importe quel texte en date
Les dates au format international (ISO 8601) seront automatiquement reconnues lors de l’import et stockées dans une propriété de type date.
Pour des valeurs de Date ou Date/Heure dans d'autres formats, vous devez spécifier le format utilisé pour que Datablist convertisse correctement la donnée en vraie date structurée.
Sélectionnez la propriété à convertir, puis l’option "Convertir en date".
Les formats courants sont listés (formats des dates de Google Sheets, Excel) ou choisissez « Format personnalisé » pour définir votre propre structure.
Si vous avez plusieurs formats de date dans une même colonne, choisissez « Formats personnalisés ou multiples » puis indiquez un format par ligne. Datablist testera chaque format jusqu’à trouver une correspondance valide.
👉 Consultez notre documentation pour tout savoir sur les formats de date personnalisés.
Créer des cases à cocher (Boolean) depuis des valeurs texte
Datablist convertit automatiquement les colonnes avec "Oui, Non", "TRUE, FALSE", etc. en cases à cocher à l’import. Utilisez l’outil de conversion pour les cas plus complexes.
Définissez les valeurs (séparées par des virgules) qui seront converties en case cochée. Les autres valeurs resteront décochées.
Extraire des valeurs numériques des textes
Utilisez la conversion « Texte vers nombre » pour :
- Normaliser les nombres avec séparateurs personnalisés (virgule, point)
- Extraire un nombre d’une chaîne comportant des lettres
👉 Consultez notre documentation dédiée à la conversion de nombres.
Nettoyer les données
Convertir HTML en texte
Vos outils de scraping extraient souvent des contenus HTML… qui comportent des balises !
Le HTML structure liens, images, listes à puces et intercalent paragraphes et retours à la ligne.
L’objectif : conserver la structure utile, mais obtenir un texte brut lisible.
Le convertisseur HTML vers texte de Datablist garde les retours à la ligne, transforme les listes à puces en liste commençant par -
.
Pour transformer un champ contenant du HTML : ouvrez l’outil Édition de masse dans le menu Édition.
Sélectionnez la colonne avec le texte HTML puis « Convertir le HTML en texte brut ».
Supprimer les espaces en trop
Autre souci courant : des espaces inutiles dans vos données. Ces espaces viennent des retours à la ligne, des "Tab", ou caractères d’espacement HTML.
Datablist propose un outil pour supprimer ces espaces excédentaires.
Il fonctionne en 2 modes :
- Mode 1 : supprimer tous les espaces – idéal pour nettoyer des numéros de téléphone, des prix…
- Mode 2 : supprimer seulement « les espaces en trop ».
Pour le second mode :
- Il supprime les espaces multiples entre les mots
- Il supprime les lignes vides
- Il enlève les espaces au début/fin de chaque ligne
Lancez le « Bulk Edit » depuis le menu Édition, choisissez la colonne à nettoyer, puis « Supprimer les espaces en trop ».
Cochez "Supprimer tous les espaces" pour retirer tous les caractères d'espacement. Laissez décoché pour ne retirer que les espaces superflus.
Exemple, avant :
Après nettoyage :
Nettoyer la casse du texte
Changer la casse de vos textes est simple avec Datablist. Dans « Bulk Edit », choisissez la propriété puis l’action « Changer la casse ».
Choix possibles :
- Majuscules – Toutes les lettres en MAJUSCULES. Ex :
john
→JOHN
- Minuscules – Toutes en minuscules. Ex :
API
→api
- Capitalize – Première lettre de chaque mot en majuscule. Ex :
john is a good man
→John Is A Good Man
- Capitalize premier mot – Seule la première lettre du premier mot est en majuscule. Ex :
john is a good man
→John is a good man
Supprimer les symboles des textes
Les textes extraits (ou saisis par les utilisateurs, ex. intitulés LinkedIn) contiennent souvent des symboles : smileys, caractères spéciaux, qui gênent le traitement. Un smiley à la fin d’un nom peut empêcher la détection des doublons…
Datablist propose une fonction native pour supprimer ces symboles non textuels.
"Bulk Edit" → choisissez la propriété texte, puis "Supprimer les symboles".
Si l’aperçu vous convient, exécutez la transformation.
Normalisation avec Rechercher et Remplacer
Pour segmenter vos listes de prospects, la normalisation est cruciale.
- Normalisez les intitulés de poste
- Les pays, villes
- Les URLs
- Etc.
Le but : transformer une propriété texte libre en choix limités, ou simplifier des textes complexes (extraire le domaine depuis une URL par exemple).
L’outil « Rechercher et Remplacer » de Datablist fonctionne sur texte simple et avec les expressions régulières (RegEx).
Quelques exemples :
Supprimer les paramètres d’une URL
Les URLs scrappées comportent souvent des paramètres inutiles. Les retirer facilite le nettoyage et la détection de doublons (par URL).
Activez « Utiliser une expression régulière » et entrez :
\?.*$
Appliquez sur votre colonne URL.
Extraire le domaine d’une adresse email
Vous pouvez aussi extraire le domaine d’une adresse email.
Dupliquez la colonne e-mail d’origine pour garder la source. Utilisez :
^(\w)*@
Diviser un nom complet en prénom et nom
Lors du scraping ou achat de listes de leads, il faut souvent séparer la colonne « Nom complet » en « Prénom » et « Nom ».
C’est crucial pour personnaliser vos cold emailing, déterminer le genre, ou extraire le titre.
Ce n’est pas si simple, mais Datablist propose un outil malin : on coupe le texte au niveau du premier espace pour créer deux colonnes.
Menu "Édition" → "Diviser une propriété".
Sélectionnez la colonne à parser, indiquez Espace comme séparateur et un maximum de 2 parties.
Lancez l’aperçu pour voir les 10 premiers résultats, puis si tout est ok, cliquez "Diviser".
Renommez les deux colonnes en « Prénom » et « Nom ».
Attention : cette méthode s’appuie sur la convention Occidentale prénom/nom. Pour les noms composés, les titres ou d’autres cultures, ce sera plus complexe !
Dédoublonnage de données
Datablist intègre un algorithme puissant pour dédoublonner vos données.
Il trouve les doublons par une ou plusieurs propriétés, puis fusionne automatiquement les données sans perte d’information.
Pour lancer le dédoublonnage : "Clean" → "Duplicates Finder".
Choisissez les propriétés pour le matching.
À l’étape suivante, lancez "Auto Merge" avec l’option "Fusionner les doublons non-conflictuels" : Datablist regroupe ce qui est simple, et vous liste les conflits.
L'algorithme de dédoublonnage propose deux méthodes pour les conflits : "Combiner les valeurs conflictuelles" (avec un séparateur) ou garder une version maîtresse.
👉 Consultez notre guide pour fusionner les doublons dans un CSV. et notre guide pour supprimer les doublons en utilisant les noms d'entreprise.
Extraire les adresses email, URLs, etc des textes
Le Data Extractor de Datablist permet d’analyser du texte non structuré et d’en extraire des entités :
- Adresses email
- URLs
- Domaine depuis URL
- Domaine depuis email
- Mentions (@)
- Tags (#)
C’est parfait pour structurer la donnée et ensuite la relier à d’autres outils, ou créer des workflows automatisés.
Une fois l’email extrait, enrichissez vos leads, ou classez les domaines via des outils comme Alexa.
Menu "Extract" → "Extract url, email, tag, etc.".
Sélectionnez votre colonne puis le type d’extraction.
Lancez l’analyse puis "Extract" quand l’aperçu est validé.
Utiliser des expressions régulières pour filtrer et valider les données
Datablist permet l’utilisation d’expressions régulières (RegEx) pour filtrer vos données.
Filtrer un texte selon le nombre de mots
Par exemple, pour repérer un texte contenant au moins {n} mots :
(?:\w+(?:\s|$)){5,}
(remplacez le 5 par votre nombre)
Variante :
(?:\w+(?:\s|$)){,5}
: texte avec maximum 5 mots (inclus)(?:\w+(?:\s|$)){5,10}
: texte entre 5 et 10 mots
Filtrer les URLs invalides
Pour repérer les URLs non valides :
^(?!(?:http(s)?:\/\/)?[\w.-]+(?:\.[\w\.-]+)+[\w\-\._~:/?#[\]@!\$&'\(\)\*\+,;=.]+).*$
Filtrer les adresses email invalides
Repérer les emails invalides (erreurs de syntaxe) :
^(?!([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})).*$
Écrire des transformations personnalisées en JavaScript
Datablist permet d’exécuter du code JavaScript personnalisé sur vos données.
Grâce à cette puissance, relevez vos défis les plus complexes : formats exotiques, calculs avancés, logique métier sur-mesure…
Créez vos propres règles, bouclez, appliquez tests et transformations pointues.
Ouvrez l’éditeur JavaScript depuis "Edit" → "Run Javascript".
👉 Découvrez la documentation dédiée à la personnalisation en JavaScript.
📘 Nouvelle fonctionnalité
Vous pouvez désormais utiliser la fonctionnalité "AI Editing" pour générer un script automatiquement avec notre IA.
Valider les adresses email
Les données issues de scraping peuvent être anciennes, truffées de fautes ou invalides — notamment pour les adresses email.
Pour les données générées par des utilisateurs, attendez-vous à de fausses adresses ou à des emails jetables…
Datablist intègre un outil de validation massif des emails.
Le service vérifie :
- La syntaxe email – Vérification complète selon la norme IETF. Email sans "@", domaines invalides, etc. sont détectés.
- Fournisseurs jetables – Détection des emails temporaires (Mailinator, Temp-Mail, YopMail...)
- MX records du domaine – Un email valide doit avoir un domaine existant ET des enregistrements MX. Sinon, l’email est marqué comme invalide.
- Segmentation pro/personnel – Pour distinguer vos contacts professionnels de ceux à usage personnel.
FAQ
Qu’est-ce que le data cleaning et pourquoi c’est important ?
Le data cleaning (ou data cleansing, ou data scrubbing) est le processus qui consiste à repérer, corriger, voire supprimer les erreurs, incohérences ou imprécisions dans un jeu de données. On identifie puis on traite les valeurs manquantes, les doublons, les soucis de format, outliers, incohérences dans la représentation…
Étape clé de tout traitement de données, il garantit que vos analyses reposent sur des informations justes, fiables, et exploitables.
Quels autres outils gratuits pour le data cleaning ?
L’offre va des outils généralistes (tableurs) aux solutions spécialisées. Voici quelques outils gratuits à connaître en plus de Datablist :
OpenRefine
OpenRefine (anciennement Google Refine) est un outil open source dédié à l’exploration, au nettoyage et à la transformation de données complexes/incohérentes.
C’est une application desktop autonome compatible avec : CSV/TSV, Excel, JSON, XML…
Les points forts : OpenRefine gère très bien les problèmes d’encodage ou de structure des CSV.
Moins bien : L’outil donne peu de fonctionnalités business, n’a ni dédoublonnage ni workflow simple pour consolider des listes. Aucune collaboration ni enrichissement métier intégré.
Microsoft Excel et Google Sheets
Excel et Google Sheets sont puissants pour le nettoyage et la préparation. Formules pour transformer, format conditionnel pour repérer des valeurs invalides, etc.
Besoin d’aide sur votre data cleaning ?
Je suis toujours preneur de feedback et de cas concrets à résoudre. Contactez-moi pour partager vos besoins !