Le data cleaning (nettoyage de données) n'est plus réservé aux data analysts. Si vous gérez une liste de prospects, utilisez des données scrappées dans vos processus, ou consolidez diverses sources de données, alors vous avez conscience de l’importance d’un data cleaning efficace.

Google Sheets et Excel suffisent pour les opérations simples mais montrent vite leurs limites pour consolider ou dédoublonner des données.

Dans ce guide, découvrez comment utiliser Datablist, un outil en ligne gratuit pour nettoyer et normaliser vos données.

Voici un résumé rapide des opérations de nettoyage présentées dans cet article :

Importer des données depuis un CSV ou en copier/coller

Datablist est l'outil idéal pour nettoyer vos données. C’est un éditeur CSV en ligne doté de fonctionnalités de nettoyage, d’édition en masse et d’enrichissement. Et il gère des collections de millions d’items.

Ouvrez Datablist, puis chargez vos collections de données.

Pour créer une nouvelle collection, cliquez sur le bouton + dans la barre latérale et choisissez « Importer CSV/Excel » pour charger votre fichier. Vous pouvez aussi utiliser le raccourci sur la page de démarrage pour passer directement à l’import de fichier.

Créer une collection
Créer une collection

Détection automatique du format

L’assistant d’import de Datablist détecte automatiquement les adresses email, dates (format ISO 8601), booleans, nombres, URLs, etc. lorsqu'ils sont bien formatés.

Détection automatique du type
Détection automatique du type

Si vos données nécessitent une analyse plus avancée (format de date différent, fautes de frappe dans les URLs ou emails), importez-les comme propriété de type « Texte ». Je vous montre comment convertir ensuite en date, boolean ou nombre dans la section suivante.

Sélectionner le type de données
Sélectionner le type de données

Convertir du texte en date, boolean, nombre

Marie Kondo dit « La vie commence vraiment une fois qu’on a mis de l’ordre chez soi ». Pour vos données, c’est pareil : « La prospection commence vraiment une fois que vos données sont en ordre » ! 😅

Filtrer sur une date (date de création, de levée...), un nombre (prix, effectif), ou un boolean est tellement plus facile quand la donnée est au bon format — et pas juste un texte.

Ouvrez l’outil « Texte vers Date, Nombre, Checkbox » dans le menu "Nettoyer".

Convertir texte en type de données
Convertir texte en type de données

Convertir n’importe quel texte en date

Les dates au format international (ISO 8601) seront automatiquement reconnues lors de l’import et stockées dans une propriété de type date.

Pour des valeurs de Date ou Date/Heure dans d'autres formats, vous devez spécifier le format utilisé pour que Datablist convertisse correctement la donnée en vraie date structurée.

Sélectionnez la propriété à convertir, puis l’option "Convertir en date".

Convertir texte en data
Convertir texte en data

Les formats courants sont listés (formats des dates de Google Sheets, Excel) ou choisissez « Format personnalisé » pour définir votre propre structure.

Format de date personnalisé
Format de date personnalisé
Aperçu de la conversion de date
Aperçu de la conversion de date

Si vous avez plusieurs formats de date dans une même colonne, choisissez « Formats personnalisés ou multiples » puis indiquez un format par ligne. Datablist testera chaque format jusqu’à trouver une correspondance valide.

👉 Consultez notre documentation pour tout savoir sur les formats de date personnalisés.

Créer des cases à cocher (Boolean) depuis des valeurs texte

Datablist convertit automatiquement les colonnes avec "Oui, Non", "TRUE, FALSE", etc. en cases à cocher à l’import. Utilisez l’outil de conversion pour les cas plus complexes.

Définissez les valeurs (séparées par des virgules) qui seront converties en case cochée. Les autres valeurs resteront décochées.

Conversion case à cocher
Conversion case à cocher
Aperçu checkbox
Aperçu checkbox

Extraire des valeurs numériques des textes

Utilisez la conversion « Texte vers nombre » pour :

  • Normaliser les nombres avec séparateurs personnalisés (virgule, point)
  • Extraire un nombre d’une chaîne comportant des lettres
Conversion texte vers nombre
Conversion texte vers nombre
Aperçu conversion nombre
Aperçu conversion nombre

👉 Consultez notre documentation dédiée à la conversion de nombres.

Nettoyer les données

Convertir HTML en texte

Vos outils de scraping extraient souvent des contenus HTML… qui comportent des balises !

Le HTML structure liens, images, listes à puces et intercalent paragraphes et retours à la ligne.

L’objectif : conserver la structure utile, mais obtenir un texte brut lisible.

Le convertisseur HTML vers texte de Datablist garde les retours à la ligne, transforme les listes à puces en liste commençant par -.

Pour transformer un champ contenant du HTML : ouvrez l’outil Édition de masse dans le menu Édition.

Bulk Edit Tool
Bulk Edit Tool

Sélectionnez la colonne avec le texte HTML puis « Convertir le HTML en texte brut ».

Bulk Edit Convert HTML
Bulk Edit Convert HTML
HTML to Text conversion
HTML to Text conversion
HTML to Text Results
HTML to Text Results

Supprimer les espaces en trop

Autre souci courant : des espaces inutiles dans vos données. Ces espaces viennent des retours à la ligne, des "Tab", ou caractères d’espacement HTML.

Datablist propose un outil pour supprimer ces espaces excédentaires.

Il fonctionne en 2 modes :

  • Mode 1 : supprimer tous les espaces – idéal pour nettoyer des numéros de téléphone, des prix…
  • Mode 2 : supprimer seulement « les espaces en trop ».

Pour le second mode :

  • Il supprime les espaces multiples entre les mots
  • Il supprime les lignes vides
  • Il enlève les espaces au début/fin de chaque ligne

Lancez le « Bulk Edit » depuis le menu Édition, choisissez la colonne à nettoyer, puis « Supprimer les espaces en trop ».

Cochez "Supprimer tous les espaces" pour retirer tous les caractères d'espacement. Laissez décoché pour ne retirer que les espaces superflus.

Réglage suppression espaces
Réglage suppression espaces

Exemple, avant :

Avant nettoyage espaces
Avant nettoyage espaces

Après nettoyage :

Après nettoyage espaces
Après nettoyage espaces

Nettoyer la casse du texte

Changer la casse de vos textes est simple avec Datablist. Dans « Bulk Edit », choisissez la propriété puis l’action « Changer la casse ».

Changer casse texte
Changer casse texte

Choix possibles :

  • Majuscules – Toutes les lettres en MAJUSCULES. Ex : johnJOHN
  • Minuscules – Toutes en minuscules. Ex : APIapi
  • Capitalize – Première lettre de chaque mot en majuscule. Ex : john is a good manJohn Is A Good Man
  • Capitalize premier mot – Seule la première lettre du premier mot est en majuscule. Ex : john is a good manJohn is a good man

Supprimer les symboles des textes

Les textes extraits (ou saisis par les utilisateurs, ex. intitulés LinkedIn) contiennent souvent des symboles : smileys, caractères spéciaux, qui gênent le traitement. Un smiley à la fin d’un nom peut empêcher la détection des doublons

Datablist propose une fonction native pour supprimer ces symboles non textuels.

"Bulk Edit" → choisissez la propriété texte, puis "Supprimer les symboles".

Supprimer symboles
Supprimer symboles

Si l’aperçu vous convient, exécutez la transformation.

Résultat suppression symboles
Résultat suppression symboles

Normalisation avec Rechercher et Remplacer

Pour segmenter vos listes de prospects, la normalisation est cruciale.

  • Normalisez les intitulés de poste
  • Les pays, villes
  • Les URLs
  • Etc.

Le but : transformer une propriété texte libre en choix limités, ou simplifier des textes complexes (extraire le domaine depuis une URL par exemple).

L’outil « Rechercher et Remplacer » de Datablist fonctionne sur texte simple et avec les expressions régulières (RegEx).

Quelques exemples :

Supprimer les paramètres d’une URL

Les URLs scrappées comportent souvent des paramètres inutiles. Les retirer facilite le nettoyage et la détection de doublons (par URL).

Activez « Utiliser une expression régulière » et entrez :

\?.*$
RegEx pour params URL
RegEx pour params URL

Appliquez sur votre colonne URL.

Aperçu URL nettoyée
Aperçu URL nettoyée

Extraire le domaine d’une adresse email

Vous pouvez aussi extraire le domaine d’une adresse email.

Dupliquez la colonne e-mail d’origine pour garder la source. Utilisez :

^(\w)*@
RegEx extraire domaine email
RegEx extraire domaine email
Aperçu domaines email
Aperçu domaines email

👉 Plus d'astuces dans notre doc Rechercher et Remplacer.

Diviser un nom complet en prénom et nom

Lors du scraping ou achat de listes de leads, il faut souvent séparer la colonne « Nom complet » en « Prénom » et « Nom ».

C’est crucial pour personnaliser vos cold emailing, déterminer le genre, ou extraire le titre.

Ce n’est pas si simple, mais Datablist propose un outil malin : on coupe le texte au niveau du premier espace pour créer deux colonnes.

Menu "Édition" → "Diviser une propriété".

Outil division propriété
Outil division propriété

Sélectionnez la colonne à parser, indiquez Espace comme séparateur et un maximum de 2 parties.

Régler division propriété
Régler division propriété

Lancez l’aperçu pour voir les 10 premiers résultats, puis si tout est ok, cliquez "Diviser".

Exemple prévisualisation
Exemple prévisualisation

Renommez les deux colonnes en « Prénom » et « Nom ».

Prénom/nom résultat
Prénom/nom résultat

Attention : cette méthode s’appuie sur la convention Occidentale prénom/nom. Pour les noms composés, les titres ou d’autres cultures, ce sera plus complexe !

Dédoublonnage de données

Datablist intègre un algorithme puissant pour dédoublonner vos données.

Il trouve les doublons par une ou plusieurs propriétés, puis fusionne automatiquement les données sans perte d’information.

Pour lancer le dédoublonnage : "Clean" → "Duplicates Finder".

Recherche de doublons
Recherche de doublons

Choisissez les propriétés pour le matching.

À l’étape suivante, lancez "Auto Merge" avec l’option "Fusionner les doublons non-conflictuels" : Datablist regroupe ce qui est simple, et vous liste les conflits.

L'algorithme de dédoublonnage propose deux méthodes pour les conflits : "Combiner les valeurs conflictuelles" (avec un séparateur) ou garder une version maîtresse.

Fusion automatique
Fusion automatique

👉 Consultez notre guide pour fusionner les doublons dans un CSV. et notre guide pour supprimer les doublons en utilisant les noms d'entreprise.

Extraire les adresses email, URLs, etc des textes

Le Data Extractor de Datablist permet d’analyser du texte non structuré et d’en extraire des entités :

  • Adresses email
  • URLs
  • Domaine depuis URL
  • Domaine depuis email
  • Mentions (@)
  • Tags (#)

C’est parfait pour structurer la donnée et ensuite la relier à d’autres outils, ou créer des workflows automatisés.

Une fois l’email extrait, enrichissez vos leads, ou classez les domaines via des outils comme Alexa.

Menu "Extract" → "Extract url, email, tag, etc.".

Menu Data Extractor
Menu Data Extractor

Sélectionnez votre colonne puis le type d’extraction.

Choix des extracteurs
Choix des extracteurs

Lancez l’analyse puis "Extract" quand l’aperçu est validé.

Aperçu extraction
Aperçu extraction

Utiliser des expressions régulières pour filtrer et valider les données

Datablist permet l’utilisation d’expressions régulières (RegEx) pour filtrer vos données.

Filtrer un texte selon le nombre de mots

Par exemple, pour repérer un texte contenant au moins {n} mots :

(?:\w+(?:\s|$)){5,} (remplacez le 5 par votre nombre)

Variante :

  • (?:\w+(?:\s|$)){,5} : texte avec maximum 5 mots (inclus)
  • (?:\w+(?:\s|$)){5,10} : texte entre 5 et 10 mots
Filtrer min 5 mots
Filtrer min 5 mots
Résultat filtre 5 mots
Résultat filtre 5 mots

Filtrer les URLs invalides

Pour repérer les URLs non valides :

^(?!(?:http(s)?:\/\/)?[\w.-]+(?:\.[\w\.-]+)+[\w\-\._~:/?#[\]@!\$&'\(\)\*\+,;=.]+).*$

Filtrer URLs invalides
Filtrer URLs invalides
Résultat URLs invalides
Résultat URLs invalides

Filtrer les adresses email invalides

Repérer les emails invalides (erreurs de syntaxe) :

^(?!([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})).*$

Filtrer emails invalides
Filtrer emails invalides
Résultat emails invalides
Résultat emails invalides

Écrire des transformations personnalisées en JavaScript

Datablist permet d’exécuter du code JavaScript personnalisé sur vos données.

Grâce à cette puissance, relevez vos défis les plus complexes : formats exotiques, calculs avancés, logique métier sur-mesure…

Créez vos propres règles, bouclez, appliquez tests et transformations pointues.

Ouvrez l’éditeur JavaScript depuis "Edit" → "Run Javascript".

Nettoyage via JavaScript
Nettoyage via JavaScript

👉 Découvrez la documentation dédiée à la personnalisation en JavaScript.

📘 Nouvelle fonctionnalité

Vous pouvez désormais utiliser la fonctionnalité "AI Editing" pour générer un script automatiquement avec notre IA.

Valider les adresses email

Les données issues de scraping peuvent être anciennes, truffées de fautes ou invalides — notamment pour les adresses email.

Pour les données générées par des utilisateurs, attendez-vous à de fausses adresses ou à des emails jetables…

Datablist intègre un outil de validation massif des emails.

Enrich
Enrich

Le service vérifie :

  • La syntaxe email – Vérification complète selon la norme IETF. Email sans "@", domaines invalides, etc. sont détectés.
  • Fournisseurs jetables – Détection des emails temporaires (Mailinator, Temp-Mail, YopMail...)
  • MX records du domaine – Un email valide doit avoir un domaine existant ET des enregistrements MX. Sinon, l’email est marqué comme invalide.
  • Segmentation pro/personnel – Pour distinguer vos contacts professionnels de ceux à usage personnel.
Aperçu validation email
Aperçu validation email

👉 Voir notre guide pour nettoyer une liste d’emails.

FAQ

Qu’est-ce que le data cleaning et pourquoi c’est important ?

Le data cleaning (ou data cleansing, ou data scrubbing) est le processus qui consiste à repérer, corriger, voire supprimer les erreurs, incohérences ou imprécisions dans un jeu de données. On identifie puis on traite les valeurs manquantes, les doublons, les soucis de format, outliers, incohérences dans la représentation…

Étape clé de tout traitement de données, il garantit que vos analyses reposent sur des informations justes, fiables, et exploitables.

Quels autres outils gratuits pour le data cleaning ?

L’offre va des outils généralistes (tableurs) aux solutions spécialisées. Voici quelques outils gratuits à connaître en plus de Datablist :

OpenRefine

OpenRefine (anciennement Google Refine) est un outil open source dédié à l’exploration, au nettoyage et à la transformation de données complexes/incohérentes.

C’est une application desktop autonome compatible avec : CSV/TSV, Excel, JSON, XML…

Les points forts : OpenRefine gère très bien les problèmes d’encodage ou de structure des CSV.

Moins bien : L’outil donne peu de fonctionnalités business, n’a ni dédoublonnage ni workflow simple pour consolider des listes. Aucune collaboration ni enrichissement métier intégré.

Microsoft Excel et Google Sheets

Excel et Google Sheets sont puissants pour le nettoyage et la préparation. Formules pour transformer, format conditionnel pour repérer des valeurs invalides, etc.

Besoin d’aide sur votre data cleaning ?

Je suis toujours preneur de feedback et de cas concrets à résoudre. Contactez-moi pour partager vos besoins !