Le nettoyage de données (data cleaning) n'est plus l'affaire exclusive des data analysts. Si vous gérez une liste de prospects, si vous utilisez des données issues du scraping, ou si vous fusionnez différentes sources, vous connaissez l’importance du nettoyage pour exploiter vos données efficacement.

Google Sheets et Excel sont pratiques pour les opérations simples mais atteignent leurs limites quand il s'agit de consolider et de dédupliquer.

Dans ce guide, apprenez à utiliser Datablist, un outil gratuit en ligne pour nettoyer et normaliser vos données.

Résumé rapide des opérations traitées dans cet article :

Importer depuis CSV ou collez vos données

Datablist est l’outil idéal pour nettoyer des données. Il fonctionne comme un éditeur CSV en ligne et propose des fonctionnalités de nettoyage, d’édition massive, et d’enrichissement. Il gère des collections allant jusqu’à plusieurs millions d’articles.

Ouvrez Datablist, et chargez vos collections de données sources.

Pour créer une nouvelle collection, cliquez sur le bouton + dans la barre latérale. Puis "Importer CSV/Excel" pour charger votre fichier. Ou passez par l’assistant de démarrage pour arriver directement à l’import de fichier.

Créer une collection
Créer une collection

Détection automatique du format

L’assistant d’import détecte automatiquement les adresses email, dates ISO 8601, booléens, nombres, URLs, etc. si vos données sont bien structurées.

Détection des types
Détection des types

Si votre source nécessite plus d’analyse (formats de dates variés, erreurs de saisie dans les URLs ou adresses email), importez-les d’abord en propriété Texte. Retrouvez la méthode pour convertir en date/boolean/nombre dans la section suivante.

Sélection du type de donnée
Sélection du type de donnée

Convertir le texte en date, booléen, nombre

Marie Kondo dit "La vie commence vraiment après avoir mis de l’ordre chez soi". Pour la donnée, on pourrait dire : "La conversion commence après avoir mis tes données en ordre"

Filtrer sur une date (ex : date de création, de financement), un nombre (CA, nombre de salariés), ou un booléen est bien plus simple quand il s’agit d’objets natifs, pas de textes.

Ouvrez l’outil "Text to Datetime, Number, Checkbox" depuis le menu "Clean".

Convertir du texte en type de donnée
Convertir du texte en type de donnée

Convertir un texte en Date/Datetime

Le format standard international ISO 8601 est détecté automatiquement à l’import. Sinon, spécifiez le format de vos dates lors de la conversion.

Sélectionnez la propriété à traiter et choisissez "Convert to Datetime".

Convertir texte en Date
Convertir texte en Date

Formats communs proposés (Google Sheets, Excel...) ou personnalisez le format.

Format datetime personnalisé
Format datetime personnalisé
Prévisualisation conversion date
Prévisualisation conversion date

Pour les champs mélangeant plusieurs formats de date, cochez "Custom or multiple formats" et saisissez chaque format sur une ligne. Datablist testera chaque format jusqu’à trouver un match valide.

👉 Consultez notre documentation sur les formats personnalisés de date.

Transformer du texte en cases à cocher (booléens)

Datablist convertit automatiquement les colonnes "Oui, Non", "TRUE, FALSE", etc. en cases à cocher lors de l’import. Utilisez le convertisseur pour des cas plus complexes.

Définissez les valeurs (séparées par virgule) correspondant à « coché ». Les autres restent décochées.

Conversion vers cases à cocher
Conversion vers cases à cocher
Prévisualisation case à cocher
Prévisualisation case à cocher

Extraire les valeurs numériques des textes

Utilisez le convertisseur "Text to number" pour :

  • Normaliser les nombres avec les séparateurs voulus
  • Extraire des nombres présents au sein de textes
Conversion en nombre
Conversion en nombre
Aperçu conversion en nombre
Aperçu conversion en nombre

👉 En savoir plus sur la conversion numérique dans notre documentation.

Nettoyer les données

Convertir le HTML en texte

Les outils de scraping extraient le HTML et incluent souvent des balises dans vos textes.

L’objectif est de protéger une partie de la structure (paragraphes, listes à puces) tout en produisant du texte brut et lisible.

L’outil Datablist de conversion HTML en texte conserve les retours à la ligne et transforme les listes à puces avec un -.

Ouvrez l’outil Bulk Edit du menu Edit.

Bulk Edit menu
Bulk Edit menu

Sélectionnez la colonne concernée, puis l’action "Convert HTML into plain text".

Nettoyer le HTML
Nettoyer le HTML
Conversion HTML en texte
Conversion HTML en texte
Résultats HTML > Texte
Résultats HTML > Texte

Retirer les espaces inutiles

Autre souci fréquent : les espaces superflus (sauts de ligne, Tabulations, espaces multiples, etc.).

Datablist propose un outil de nettoyage d’espaces avec deux modes :

  • Mode 1 : Retirer tous les espaces (pratique pour nettoyer les numéros, prix…)
  • Mode 2 : Retirer uniquement les espaces en trop (dans un texte)

Ce second mode :

  • supprime les espaces répétés entre mots,
  • retire les lignes vides,
  • supprime les espaces en début/fin de ligne.

Utilisez "Bulk Edit" dans "Edit" pour accéder à l’action "Remove extra spaces". Cochez "Remove all spaces" pour supprimer absolument tous les espaces.

Configuration nettoyage espaces
Configuration nettoyage espaces

Exemple avant/après :

Avant nettoyage
Avant nettoyage

Après nettoyage, sans espaces inutiles :

Après nettoyage
Après nettoyage

Changer la casse des textes

Changer la casse est simple. Ouvrez "Bulk Edit" dans "Edit".

Sélectionnez votre propriété cible puis "Change text case".

Changer la casse du texte
Changer la casse du texte

Modes proposés :

  • Majuscule
  • Minuscule
  • Capitaliser chaque mot
  • Capitaliser uniquement le premier mot

Supprimer les symboles dans les textes

Les textes extraits (scraping ou saisie utilisateur, titres LinkedIn, etc.) contiennent parfois des symboles parasites (smileys, caractères spéciaux…). Un simple symbole dans un nom peut empêcher la détection des doublons par un algorithme de déduplication.

Datablist propose un nettoyeur qui supprime tous les symboles non-textuels.

Sélectionnez "Bulk Edit" puis la colonne à traiter, action "Remove symbols".

Avant suppression symboles
Avant suppression symboles

Validez si l’aperçu vous convient, lancez la transformation.

Après suppression symboles
Après suppression symboles

Normalisation avec Trouver et Remplacer

Pour segmenter vos listes de prospects, la normalisation est essentielle :

  • Harmonisez les intitulés de poste
  • Uniformisez pays, villes
  • Normalisez URLs, etc.

L’objectif : réduire le texte libre à une liste limitée de choix ou à un format homogène.

Datablist propose "Find and Replace", fonctionnant en texte simple ou avec expressions régulières.

Retirer les paramètres d’URL

Supprimez facilement les paramètres inutiles ou de tracking dans vos URLs. Utilisez l’option RegEx avec l’expression :

\?.*$
Regex pour nettoyer les URLs
Regex pour nettoyer les URLs

Appliquez ça sur la propriété concernée.

Prévisualisation URLs nettoyées
Prévisualisation URLs nettoyées

Extraire les domaines d’e-mails

Autre astuce : récupérer le domaine d’un e-mail avec Find and Replace (toujours via RegEx). Dupliquez d’abord la colonne. Utilisez :

^(\w)*@
Regex pour extraire le domaine d'un email
Regex pour extraire le domaine d'un email
Prévisualisation domaines
Prévisualisation domaines

👉 En savoir plus dans la documentation Find and Replace.

Séparer nom complet en prénom et nom

Quand on scrap des listes de leads, on récupère parfois un champ "Full Name" à séparer en "Prénom" et "Nom". Savoir séparer précisément les deux est utile pour personnaliser ses messages (Cold Emailing), détecter le genre, ou extraire un titre académique.

La tâche se complexifie dans certains cas, mais pour la méthode occidentale prénom/nom, c’est simple avec Datablist : ouvrez "Split Property" dans le menu "Edit".

Outil Split Property
Outil Split Property

Sélectionnez la colonne cible, puis "Space" comme délimiteur. Limitez à 2 parties.

Configuration du split
Configuration du split

Lancez l’aperçu : si le résultat convient, cliquez "Split Property" pour appliquer sur toutes les lignes.

Aperçu du split
Aperçu du split

Renommez ensuite les deux nouvelles propriétés, par exemple "Prénom" et "Nom".

Résultat prénom/nom
Résultat prénom/nom

Ce cas est adapté aux noms occidentaux standards. Pour des cas complexes (double nom, titres…), affinez manuellement.

Déduplication des données

Datablist propose un super algorithme pour dedoublonner vos données. Il détecte automatiquement les éléments similaires sur une ou plusieurs propriétés et propose un algorithme de fusion automatique sans perte d’information.

Cliquez sur "Duplicate Finder" dans le menu "Clean".

Duplicate Finder
Duplicate Finder

Sélectionnez les propriétés à utiliser pour la correspondance.

Sur la page de résultat, lancez "Auto Merge" avec l’option "Merge non-conflicting duplicates". Seuls les éléments fusionnables seront traités — les doublons avec conflit seront listés.

Le dedupe algorithm propose deux options pour les conflits : combiner les valeurs séparées par un délimiteur, ou conserver uniquement la plus pertinente.

Fusion automatique
Fusion automatique

👉 Voir notre guide pour fusionner des doublons dans un CSV. et pour dédupliquer par nom d’entreprise.

Extraire les adresses email, URLs, etc. des textes

Le "Data Extractor" permet de parser des textes non structurés et d’en sortir des entités :

  • Emails
  • URLs
  • Domaine depuis une URL
  • Domaine depuis un email
  • Mentions (@nom)
  • Tags (#tag)

C'est idéal pour segmenter et relier vos données à d’autres outils (enrichissement, automatisation, scoring…)

Dans le menu "Edit Menu -> Extract url, email, tag, etc.".

Menu Data Extractor
Menu Data Extractor

Sélectionnez la colonne cible et choisissez un parser.

Parsers extractor
Parsers extractor

Lancez l'extraction pour prévisualiser le résultat, puis appliquez.

Prévisualisation extraction
Prévisualisation extraction

Utiliser les expressions régulières pour filtrer et valider les données

Datablist accepte les expressions régulières (Regex) pour filtrer ou valider vos données.

Filtrer par nombre de mots dans un texte

Pour filtrer les textes ayant au moins {n} mots :

(?:\w+(?:\s|$)){5,} (remplacez 5 par le nombre souhaité)

Variantes :

  • (?:\w+(?:\s|$)){,5} : moins de 5 mots (inclus)
  • (?:\w+(?:\s|$)){5,10} : entre 5 et 10 mots
Filtrer 5 mots minimum
Filtrer 5 mots minimum
Résultats filtration min 5 mots
Résultats filtration min 5 mots

Filtrer les URLs invalides

Regex URL invalide :

^(?!(?:http(s)?:\/\/)?[\w.-]+(?:\.[\w\.-]+)+[\w\-\._~:/?#[\]@!\$&'\(\)\*\+,;=.]+).*$

Filtrer URLs invalides
Filtrer URLs invalides
Résultat URLs invalides
Résultat URLs invalides

Filtrer les emails invalides

Regex emails invalides :

^(?!([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})).*$

Filtrer emails invalides
Filtrer emails invalides
Résultat emails invalides
Résultat emails invalides

Écrire des transformations sur-mesure en JavaScript

Datablist permet d’exécuter votre propre code JavaScript sur vos données. Extrêmement pratique pour traiter des formats personnalisés, des calculs ou des transformations avancées.

Éditeur accessible via "Run JavaScript" dans le menu "Edit".

JavaScript Data Cleaning
JavaScript Data Cleaning

👉 Consultez la doc pour en savoir plus sur l’écriture de code JavaScript.

Valider les adresses email

Les emails issus de bases extraites peuvent être obsolètes, erronés ou temporaires.

Quand vos données proviennent de l’utilisateur final, attendez-vous à trouver des emails factices ou jetables.

Datablist intègre un outil pour valider en masse les adresses email :

Cliquez Enrich
Cliquez Enrich

Les vérifications comprennent :

  • Analyse syntaxique – Validation selon la norme IEFT, détection des @ manquants, domaines invalides, etc.
  • Détection des emails jetables – Recherche des domaines Mailinator, YopMail, etc.
  • Vérification des MX – Test des enregistrements DNS du domaine, absence de MX = email invalide.
  • Segmentation pro/perso – Idéal pour segmenter vos contacts et adapter vos campagnes.
Résultats vérifications emails
Résultats vérifications emails

👉 Voir notre guide pour nettoyer une base d’emails.

FAQ

Qu'est-ce que le nettoyage de données et pourquoi est-ce important ?

Le nettoyage de données (data cleaning, cleansing ou scrubbing) consiste à identifier et corriger ou supprimer les erreurs, incohérences, et valeurs erronées d’un jeu de données. Cela inclut la gestion des valeurs manquantes, des doublons, des formats incorrects et des incohérences de saisie.

Nettoyer ses données est primordial pour garantir la fiabilité des analyses, la précision des résultats et la qualité globale de vos traitements.

Quels outils gratuits alternatifs pour le data cleaning ?

L’univers du data cleaning s’étend des tableurs généralistes aux plateformes spécialisées. Voici quelques alternatives gratuites à Datablist :

OpenRefine

OpenRefine (ex Google Refine) est un outil open source pour explorer et nettoyer de grands volumes de données non structurées.

C’est une application de bureau compatible CSV, Excel, JSON, XML, etc. Elle gère bien les problèmes d’encodage et propose plusieurs options de réparation du format CSV.

Points faibles : prise en main complexe, peu de fonctions business prêtes à l’emploi (pas de déduplication native, pas de fusion simple avec d’autres listes, peu d’intégrations collaboratives).

Microsoft Excel et Google Sheets

Excel et Google Sheets, encore incontournables pour de nombreuses tâches de nettoyage et de préparation des données. Utilisez les formules pour transformer et manipuler les données ; la mise en forme conditionnelle pour repérer rapidement les valeurs à corriger.

Besoin d’aide pour le nettoyage de vos données ?

Je suis toujours à l’écoute pour recueillir vos retours et vos enjeux concrets sur le data cleaning. Contactez-moi ici pour partager votre cas d’usage !