Nettoyer des doublons, ce n’est pas juste cliquer sur « delete » !

Certaines lignes sont des copies parfaites. D’autres contiennent des infos qui se contredisent. Beaucoup sont complémentaires et doivent être fusionnées plutôt que supprimées.

Selon votre workflow, vous devrez parfois fusionner des fiches, mettre à jour un enregistrement “master”, ou simplement marquer les doublons pour les relire.

Les outils basiques suppriment des lignes sans comprendre les priorités entre champs ni vos règles métier. Résultat : vous détruisez des données utiles.

Une bonne déduplication repose sur une logique claire : définir comment choisir l’élément “master”, comment résoudre les conflits, et quoi faire des enregistrements secondaires.

Dans cet article, on passe en revue des méthodes concrètes pour fusionner, mettre à jour et supprimer des doublons dans des fichiers CSV, des feuilles Excel et des CRM.

C’est parti !

📌 Résumé pour les pressés

Cet article vous explique tout ce qu’il faut savoir pour dédupliquer vos spreadsheets : fusionner, mettre à jour et supprimer des doublons proprement.

Problème : sans comprendre les règles de priorisation et les actions en masse, vous allez soit perdre des données importantes, soit conserver les mauvais enregistrements.

Solution : Datablist propose 3 méthodes de déduplication : fusion/suppression simple, édition assistée par IA pour des règles complexes, et déduplication multi-fichiers.

Les méthodes de déduplication couvertes :

  1. Fusion et suppression de doublons simples sur un seul fichier
  2. Édition via IA pour des règles de priorisation complexes avant suppression
  3. Suppression de doublons entre plusieurs fichiers

En 10 minutes, vous allez apprendre

Pourquoi vous pouvez nous faire confiance

Datablist est une plateforme pour créer des workflows de lead generation. Aujourd’hui, 26 000 utilisateurs s’en servent pour trouver, enrichir et nettoyer des données grâce à plus de 60 outils : des AI Agents aux Email Finders, en passant par des AI processors, des Technology enrichments, et bien plus.

En plus, Datablist inclut une suite de déduplication complète : vous pouvez fusionner, mettre à jour, supprimer ou marquer des doublons en quelques clics, sans écrire une ligne de code.

Three Ways To Deduplicate Spreadsheet Files - Why You Can Trust Datablist
Three Ways To Deduplicate Spreadsheet Files - Why You Can Trust Datablist

Comprendre les bases de la déduplication

Avant de passer au “comment”, voici les principes qui expliquent les différentes techniques de déduplication.

Cette section couvre :

Ce qu’il faut comprendre : bases de la déduplication

Les points suivants sont surtout utiles pour une déduplication sur un seul fichier. Pour une déduplication multi-fichiers, vous pouvez uniquement supprimer des copies dans certains fichiers (pas fusionner ni mettre à jour). Comprendre ces principes reste utile, même si ce n’est pas strictement indispensable.

Par défaut, Datablist essaie de fusionner automatiquement les doublons. En pratique, ce n’est pas toujours possible, car la plupart des utilisateurs ont des doublons conflictuels.

Three Ways To Deduplicate Spreadsheet Files - Conflicting Duplicates
Three Ways To Deduplicate Spreadsheet Files - Conflicting Duplicates

Quand il y a conflit, tout repose sur deux concepts :

  • des schémas de priorisation pour choisir l’enregistrement “master” dans un groupe de doublons
  • des actions en masse pour gérer les enregistrements secondaires de ce groupe

Comprendre les types de doublons

On classe les doublons selon le niveau de similarité de leurs champs.

  1. Doublons exacts : toutes les colonnes ont les mêmes valeurs. Souvent causés par un import en double ou un copier-coller accidentel.
  2. Doublons conflictuels : les enregistrements représentent la même entité, mais certains champs divergent (téléphone, intitulé de poste, CA, etc.).
  3. Doublons complémentaires : chaque ligne contient des infos utiles différentes, qu’il faut combiner. Par exemple, un enregistrement a une adresse email et son doublon a un numéro de téléphone.
Three Ways To Deduplicate Spreadsheet Files - Duplicate Types
Three Ways To Deduplicate Spreadsheet Files - Duplicate Types

Première étape : définir un schéma de priorisation

Vous devez décider quel enregistrement devient la référence. On appelle ça la Master Item Rule. Gardez bien ce terme : vous allez en avoir besoin.

Exemples de schémas/Master Item Rules :

  • Most complete : conserve l’enregistrement avec le plus de champs renseignés
  • Last updated : conserve l’enregistrement le plus récemment modifié
  • First created : conserve l’enregistrement le plus ancien
  • Lowest value : conserve l’enregistrement avec la plus petite valeur sur une colonne donnée
  • Highest value : conserve l’enregistrement avec la plus grande valeur sur une colonne donnée
  • Matching value : conserve l’enregistrement qui correspond à une valeur précise sur une propriété que vous définissez

📘 Master Item Rules

Important : “Last updated” et “First created” ne sont pertinents que pour des données suivies et mises à jour dans Datablist dans le temps. Si vous venez juste d’importer un fichier, ces options ne fonctionneront pas car les spreadsheets importés ne contiennent pas ces métadonnées.

Si vous hésitez, on vous recommande de choisir “Most complete” ou d’utiliser la technique expliquée dans la deuxième partie de cette section.

Pour les cas plus complexes, Datablist vous permet d’utiliser l’IA pour créer des schémas de priorisation sur mesure, par exemple : si la colonne A contient “Hello people” et la colonne B contient “of Germany”.

On détaille ça dans la deuxième partie de la section pas à pas.

Three Ways To Deduplicate Spreadsheet Files - Master Item Rules
Three Ways To Deduplicate Spreadsheet Files - Master Item Rules

Deuxième étape : choisir une action en masse

Une fois votre schéma de priorisation choisi, l’étape suivante consiste à définir ce que vous voulez faire des enregistrements qui ne gagnent pas.

Exemples d’actions en masse pour traiter des doublons :

  • Supprimer les éléments secondaires
  • Fusionner l’élément master et l’élément secondaire en un seul enregistrement
  • Fusionner certaines propriétés de l’élément secondaire avec l’élément master, puis supprimer le reste
  • Mettre à jour certaines propriétés de l’élément master avec les valeurs de l’élément secondaire
  • Marquer les doublons sans les supprimer (très utile en organisation, quand les enregistrements secondaires sont nécessaires pour la conformité)
  • … et tout ce qui fait sens dans votre contexte

📘 Fusionner des doublons vs. Mettre à jour des doublons

Fusionner, c’est combiner les valeurs des deux enregistrements. Très pratique pour des contacts CRM en double, quand il y a des notes dans les deux fiches.

Mettre à jour, c’est remplacer certains champs par de meilleures données issues d’une autre source. À utiliser quand chaque doublon a une partie “vraie” : par exemple, garder le contact A, mais corriger son job title avec celui (plus exact) du contact B.

Three Ways To Deduplicate Spreadsheet Files - Deduplication Strategy
Three Ways To Deduplicate Spreadsheet Files - Deduplication Strategy

Les questions à se poser avant de dédupliquer une liste

Maintenant que vous avez compris la logique “priorisation + action en masse”, voici des questions simples pour identifier rapidement votre schéma et ce que vous ferez des autres enregistrements.

Quel enregistrement doit devenir votre Master Item ?

Cette question vous aide à définir votre schéma de priorisation. Demandez-vous ce qui rend un doublon “meilleur” qu’un autre.

Posez-vous :

  • Est-ce qu’un enregistrement est plus complet que les autres ?
  • Est-ce qu’une source est plus fiable qu’une autre ?
  • Est-ce qu’un enregistrement est plus récent ou plus fraîchement mis à jour ?
  • Est-ce qu’une valeur spécifique fait de cette ligne la version “correcte” ?

Votre réponse détermine la Master Item Rule :

  • Si la complétude prime → utilisez “Most complete”
  • Si la récence prime → utilisez “Last updated” ou “First created”
  • Si une valeur précise doit “gagner” → utilisez “Matching value”
  • Si la logique est plus subtile → utilisez AI Editing (Méthode 2)

Que doit-il arriver aux enregistrements non-master ?

Cette question vous aide à choisir votre action en masse. Une fois que vous avez un gagnant, que faites-vous des autres ?

Posez-vous :

  • Est-ce que les autres lignes contiennent des données utiles que je veux garder ?
  • Est-ce que je dois combiner des infos de plusieurs lignes en une seule ?
  • Est-ce que je veux juste supprimer le surplus et passer à autre chose ?
  • Est-ce que je dois marquer les doublons pour relecture au lieu de supprimer ?

Votre réponse détermine l’action en masse :

  • Si les autres lignes n’apportent rien → drop all conflicting values / delete
  • Si les autres lignes ont de la valeur → combine the conflicting values ou update le master
  • Si vous avez des contraintes de conformité → flag sans supprimer
  • Si vous devez sélectionner au cas par cas → AI Editing (Méthode 2)
Three Ways To Deduplicate Spreadsheet Files - It’s Really Simple
Three Ways To Deduplicate Spreadsheet Files - It’s Really Simple

Deduplication : nettoyer les enregistrements en doublon dans vos données

Datablist dispose d’une suite de déduplication qui couvre tous les cas, de la suppression simple de doublons à la déduplication multi-fichiers. Dans cette section, on va donc voir 3 workflows :

  1. Fusion et suppression de doublons sur un seul fichier avec des règles simples
  2. Mise à jour et suppression sur un seul fichier avec des règles complexes
  3. Suppression de doublons entre plusieurs fichiers (pas de fusion possible)

On démarre !

Comment Datablist gère les doublons (rappel rapide)

Si vous avez lu la section précédente, vous pouvez sauter ce passage ; sinon, voici un résumé clair de ce que vous allez faire.

  1. Datablist scanne vos données et repère les lignes qui “matchent” selon les colonnes que vous choisissez.
  2. Quand il trouve des doublons, il peut les auto-fusionner pour les doublons exacts.
  3. Si vos doublons sont conflictuels, il vous demande de choisir un schéma pour prioriser une fiche (la “Master Item Rule”).
  4. Une fois la Master Item Rule définie, vous pouvez fusionner, mettre à jour, marquer ou supprimer l’autre enregistrement du duo.

Fusion et suppression de doublons simples sur un seul fichier

C’est la manière la plus simple de gérer les doublons : vous avez une liste où certaines entrées apparaissent plusieurs fois et vous voulez garder une seule occurrence de chaque enregistrement.

Quand c’est utile :

  • Vous avez importé le même fichier CSV deux fois par erreur
  • Votre export CRM contient des contacts en double
  • Des données scrapées contiennent des répétitions (erreurs de pagination, etc.)

Étape 1 : créer un compte et importer vos données

  1. Inscrivez-vous sur Datablist
Three Ways To Deduplicate Spreadsheet Files - Datablist Homepage
Three Ways To Deduplicate Spreadsheet Files - Datablist Homepage
  1. Upload votre CSV ou Excel
Three Ways To Deduplicate Spreadsheet Files - Datablist Start Page
Three Ways To Deduplicate Spreadsheet Files - Datablist Start Page

Étape 2 : ouvrir Duplicates Finder

Cliquez sur Clean dans le menu du haut, puis sélectionnez Duplicates Finder

Three Ways To Deduplicate Spreadsheet Files - Duplicated Contacts
Three Ways To Deduplicate Spreadsheet Files - Duplicated Contacts

Étape 3 : choisir votre identifiant unique

À cette étape, vous avez deux options :

Option 1 : choisir une ou plusieurs colonnes comme identifiant unique — RECOMMANDÉ

Un identifiant unique, c’est l’info qui permet de distinguer chaque enregistrement. Par exemple :

  • Avec une colonne : si vous choisissez “Email”, alors john@example.com sera unique même si le reste “match”
  • Avec plusieurs colonnes : si vous choisissez “First Name” + “Company”, alors “John” chez “Microsoft” est différent de “John” chez “Google”

Plus vous sélectionnez de colonnes, plus la comparaison devient stricte. On vous recommande de démarrer avec une ou deux colonnes qui identifient réellement une ligne dans vos données.

Three Ways To Deduplicate Spreadsheet Files - Choosing a Unique Identifier
Three Ways To Deduplicate Spreadsheet Files - Choosing a Unique Identifier

Option 2 : dédupliquer sur toutes les propriétés — NON RECOMMANDÉ

Cette option vérifie si chaque colonne d’une ligne correspond exactement à une autre ligne. Autrement dit, deux lignes ne seront considérées comme doublons que si toutes leurs données sont identiques.

Pourquoi on ne recommande pas : dans la vraie vie, les doublons ne sont presque jamais parfaitement identiques. Une même personne peut avoir des job titles légèrement différents, ou une même entreprise peut avoir des effectifs différents selon la source. Avec cette option, vous allez passer à côté de la plupart des doublons.

Three Ways To Deduplicate Spreadsheet Files - Exact Duplicates Are Rare
Three Ways To Deduplicate Spreadsheet Files - Exact Duplicates Are Rare

Quand l’option 2 peut être utile : uniquement si vous cherchez des doublons exacts importés deux fois par erreur, où absolument tous les champs sont identiques.

Une fois les propriétés choisies, descendez et cliquez sur Next

Étape 4 : sélectionner l’algorithme de comparaison

Vous devez choisir un algorithme de comparaison et un processor pour chaque propriété utilisée. On vous recommande de garder les réglages par défaut, sauf pour les noms d’entreprise.

Three Ways To Deduplicate Spreadsheet Files - Comparison Algorithm And Processors
Three Ways To Deduplicate Spreadsheet Files - Comparison Algorithm And Processors

Si vous dédupliquez à partir des noms d’entreprise : choisissez le processor “company names”, car c’est le seul que Datablist ne détecte pas automatiquement.

Étape 5 : choisir le Master Item, relire et résoudre les conflits

  1. Choisir la master item rule : comme expliqué plus haut, Datablist vous demande toujours une Master Item rule. La règle par défaut est “Most Complete”, mais vous pouvez en choisir une autre.
Three Ways To Deduplicate Spreadsheet Files - Master Item Rule Selection
Three Ways To Deduplicate Spreadsheet Files - Master Item Rule Selection
  1. Relire et résoudre les conflits si nécessaire : très souvent, vos doublons ne sont pas identiques sur tous les champs. C’est précisément pour ça qu’on vous demande de définir un master item.

    Pour résoudre les conflits, vous pouvez soit “combine”, soit “drop” les valeurs en conflit. Attention : “combine” fonctionne uniquement pour des champs texte. Pour des nombres, des dates, etc., il faut généralement combiner les deux approches : “combine” et “drop”.

Three Ways To Deduplicate Spreadsheet Files - Merge Settings
Three Ways To Deduplicate Spreadsheet Files - Merge Settings
  1. Cliquez sur Refresh Merging Preview pour voir les changements appliqués
Three Ways To Deduplicate Spreadsheet Files - Dropping Conflicting Values
Three Ways To Deduplicate Spreadsheet Files - Dropping Conflicting Values

Étape 6 : lancer et vérifier

Il ne vous reste plus qu’à cliquer sur Auto-merge when possible.

Three Ways To Deduplicate Spreadsheet Files - Merging Preview
Three Ways To Deduplicate Spreadsheet Files - Merging Preview

Une fois vos doublons fusionnés, Datablist vous propose de télécharger un CSV avec les changements effectués. Le fichier inclut :

  • Tous les doublons présents dans votre fichier
  • Les enregistrements vers lesquels ces doublons ont été fusionnés
  • Les modifications appliquées
  • Le Datablist record ID

Le téléchargement est optionnel.

Three Ways To Deduplicate Spreadsheet Files - Deduping Successful
Three Ways To Deduplicate Spreadsheet Files - Deduping Successful

💡 Si vous vous êtes trompé

Vous pouvez revenir en arrière en cliquant sur le bouton d’historique et en annulant les actions, puis en retournant à la vue spreadsheet.

Éditer les doublons avant de les supprimer

Parfois, les Master Item rules “simples” ne suffisent pas. Et si vous voulez garder le numéro de téléphone d’une fiche, mais le job title d’une autre ? C’est là qu’intervient AI Editing.

Comment ça marche : au lieu de choisir une règle prédéfinie, vous décrivez exactement ce que vous voulez en langage naturel. L’IA de Datablist lit vos instructions, génère un script et applique votre logique à chaque groupe de doublons.

Quand c’est utile :

  • Vous avez des contacts issus de plusieurs sources (CRM, LinkedIn, listes de téléphones) et vous voulez combiner les meilleures infos
  • Vos doublons ont des champs différents remplis, et vous voulez sélectionner certaines valeurs précisément
  • Vous avez une logique “métier” qui ne rentre pas dans les Master Item rules standard
  • Vous voulez mettre à jour avant de supprimer, pas seulement choisir un gagnant
  • Vous voulez marquer les doublons au lieu de les supprimer (conformité)

Étape 1 : créer un compte et importer vos données

  1. Inscrivez-vous sur Datablist
Three Ways To Deduplicate Spreadsheet Files - Datablist Homepage
Three Ways To Deduplicate Spreadsheet Files - Datablist Homepage
  1. Upload votre CSV ou Excel
Three Ways To Deduplicate Spreadsheet Files - Datablist Start Page
Three Ways To Deduplicate Spreadsheet Files - Datablist Start Page

Étape 2 : ouvrir Duplicates Finder

Cliquez sur Clean dans le menu du haut, puis sélectionnez Duplicates Finder

Three Ways To Deduplicate Spreadsheet Files - Duplicated Contacts
Three Ways To Deduplicate Spreadsheet Files - Duplicated Contacts

Étape 3 : choisir votre identifiant unique

Sélectionnez la/les colonne(s) utilisée(s) pour faire matcher les doublons. Une fois fait, descendez et cliquez sur Next

Three Ways To Deduplicate Spreadsheet Files - Choosing a Unique Identifier
Three Ways To Deduplicate Spreadsheet Files - Choosing a Unique Identifier

Étape 4 : sélectionner l’algorithme de comparaison

Sélectionnez un algorithme de comparaison et un processor pour chaque propriété. On vous recommande de garder les réglages par défaut, sauf pour les noms d’entreprise.

Three Ways To Deduplicate Spreadsheet Files - Comparison Algorithm And Processors
Three Ways To Deduplicate Spreadsheet Files - Comparison Algorithm And Processors

Étape 5 : ouvrir AI Editing

Au lieu de sélectionner une Master Item rule, cliquez sur AI Editing dans le panneau de déduplication.

Three Ways To Deduplicate Spreadsheet Files - AI Deduplication
Three Ways To Deduplicate Spreadsheet Files - AI Deduplication

Étape 6 : écrire votre prompt

Décrivez ce que vous voulez en langage naturel. Exemple concret :

Imaginez que vous ayez des données contact issues de deux sources : une vérification téléphone et un scraping LinkedIn. Les fiches téléphone ont des numéros vérifiés, mais LinkedIn contient des job titles et des noms d’entreprise plus à jour. Vous voulez garder la fiche téléphone en master, tout en la mettant à jour avec les infos LinkedIn.

Voici le prompt utilisé :

Select the records with "Phone" as source as master item and update them with the job title and company name from the record with the "LinkedIn" as source. 

The source: /source
The job title: /job title
The company name: /company

Delete the second item when finished

Note : n’oubliez pas de mapper vos propriétés dans le prompt avec /

Cliquez sur Generate and preview changes quand c’est prêt.

Three Ways To Deduplicate Spreadsheet Files - AI Prompt
Three Ways To Deduplicate Spreadsheet Files - AI Prompt

Étape 7 : vérifier et appliquer les changements

Datablist vous montre exactement ce que l’IA va modifier avant d’appliquer les changements. Vérifiez l’aperçu pour vous assurer que tout correspond à vos attentes.

Quand l’aperçu est bon, cliquez sur Run AI Script pour appliquer la logique à tous les groupes de doublons. Ensuite, exportez vos données nettoyées.

Three Ways To Deduplicate Spreadsheet Files - AI Deduplication Preview
Three Ways To Deduplicate Spreadsheet Files - AI Deduplication Preview

💡 Conseils de prompt pour de meilleurs résultats

Soyez très précis sur vos attentes. Plus vous décrivez clairement ce que vous voulez, meilleurs seront les résultats.

Avec ça, vous pouvez aussi :

  • Marquer les doublons au lieu de les supprimer : un prompt du type “Add 'DUPLICATE' to the status column for all non-master items instead of deleting them”
  • Fusionner des champs texte : “Merge all notes from duplicate records into the master item's notes field, separated by line breaks”
  • Prioriser selon la qualité de la source : “Use Salesforce records as master when available, otherwise use HubSpot, then spreadsheet imports”
  • … ou toute autre logique dont vous avez besoin

Supprimer les doublons entre deux feuilles ou plus

Si vous avez deux fichiers CSV différents et que vous voulez repérer les enregistrements présents dans les deux, ou dédupliquer une nouvelle lead list par rapport à un export CRM existant, Datablist rend ça très simple.

Comment ça marche : contrairement à la déduplication sur un seul fichier, ce workflow compare les enregistrements entre plusieurs fichiers et supprime les doublons qui se trouvent dans différentes sources. Vous pouvez sélectionner deux fichiers ou plus, sans limite.

Quand c’est utile :

  • Vous importez de nouveaux leads et voulez éviter les doublons avec des contacts existants
  • Vous fusionnez des données issues de plusieurs fournisseurs ou sources
  • Vous voulez mesurer le chevauchement entre deux listes clients
  • Vous voulez éviter de contacter deux fois le même prospect
  • Vous devez consolider des données clients entre plusieurs équipes, pays ou filiales
  • … et pour bien d’autres workflows de data cleaning

📘 Différence importante avec la déduplication sur un seul fichier

En déduplication multi-fichiers, Datablist supprime les doublons au lieu de les fusionner.

Étape 1 : créer un compte et importer vos fichiers

  1. Inscrivez-vous sur Datablist
Three Ways To Deduplicate Spreadsheet Files - Datablist Homepage
Three Ways To Deduplicate Spreadsheet Files - Datablist Homepage
  1. Import votre premier fichier CSV ou Excel
Three Ways To Deduplicate Spreadsheet Files - Datablist Start Page
Three Ways To Deduplicate Spreadsheet Files - Datablist Start Page
  1. Import votre deuxième fichier dans une autre collection (et tous les fichiers additionnels que vous souhaitez inclure)
Three Ways To Deduplicate Spreadsheet Files - Import Second File
Three Ways To Deduplicate Spreadsheet Files - Import Second File
  1. Vérifiez que vous avez un identifiant unique

Avant de continuer, assurez-vous que tous vos fichiers partagent au moins une colonne commune qui peut servir d’identifiant unique. Exemples :

  • Adresse email
  • URL LinkedIn
  • Domaine d’entreprise
  • Numéro de téléphone
  • Tout autre champ qui identifie un enregistrement de façon unique

Étape 2 : ouvrir Duplicates Finder

Cliquez sur Clean dans le menu du haut, puis sélectionnez Duplicates Finder

Three Ways To Deduplicate Spreadsheet Files - Duplicated Contacts
Three Ways To Deduplicate Spreadsheet Files - Duplicated Contacts

Étape 3 : activer la déduplication multi-collections

  1. Cochez Check Duplicate Items Across Several Collections
  2. Sélectionnez la/les collection(s) / fichier(s) que vous venez d’importer
Three Ways To Deduplicate Spreadsheet Files - Multi File Selection
Three Ways To Deduplicate Spreadsheet Files - Multi File Selection

Étape 4 : choisir la propriété d’identifiant unique

Sélectionnez la propriété utilisée pour matcher les doublons entre fichiers. Vous pouvez en sélectionner plusieurs, mais assurez-vous que tous les fichiers contiennent ces propriétés pour garder une déduplication fiable.

Three Ways To Deduplicate Spreadsheet Files - Choosing a Unique Identifier
Three Ways To Deduplicate Spreadsheet Files - Choosing a Unique Identifier

Étape 5 : sélectionner l’algorithme de comparaison

Choisissez le mécanisme adapté à vos données :

  • Exact : idéal pour des URLs, domaines ou IDs quand vous voulez un match strict
  • Smart : idéal pour du texte, quand il peut y avoir de petites variations
Three Ways To Deduplicate Spreadsheet Files - Comparison Algorithm And Processors
Three Ways To Deduplicate Spreadsheet Files - Comparison Algorithm And Processors

Cliquez sur Run duplicates check après avoir choisi la méthode.

Étape 6 : définir les règles de nettoyage

Choisissez comment gérer les doublons :

  • Remove duplicate items from collection X : supprime les doublons du fichier sélectionné
  • Keep duplicate items only in collection X : disponible uniquement si vous dédupliquez entre 3 collections ou plus

Cliquez sur Process duplicate items pour continuer.

Three Ways To Deduplicate Spreadsheet Files - Auto Cleaning Rule
Three Ways To Deduplicate Spreadsheet Files - Auto Cleaning Rule

Et voilà !

Conclusion

Bravo, vous êtes arrivé au bout — et vous en savez maintenant plus sur la déduplication que la majorité des gens. Petit récap des enseignements clés :

  1. Tous les doublons ne se valent pas : identifier le type change tout
  2. Choisir le bon Master Item et la bonne action en masse peut vous faire gagner des heures
  3. Là où beaucoup d’outils vous imposent leur façon de faire, Datablist vous laisse gérer les doublons exactement comme vous en avez besoin

Que vous soyez en train de fusionner des contacts d’un CRM “en vrac”, d’appliquer une logique custom via IA, ou de nettoyer de nouveaux leads contre votre base existante, vous avez maintenant la méthode. Bonne déduplication.

Frequently Asked Question

Comment Datablist choisit-il quel doublon conserver ?

Datablist ne choisit pas à votre place : c’est vous qui décidez. Vous définissez une Master Item Rule (par exemple “Most complete” ou “Last updated”) qui indique quel enregistrement prioriser. Si votre logique est plus complexe, vous pouvez utiliser AI Editing pour définir des règles sur mesure en langage naturel (l’assistant IA s’occupe du reste).

Qu’est-ce qui différencie la suite Deduplication and Matching de Datablist ?

Trois choses : la flexibilité, la personnalisation via IA, et le prix. La plupart des outils se limitent à supprimer des doublons. Datablist vous permet de fusionner, mettre à jour, marquer ou supprimer selon des règles que vous définissez. La fonctionnalité AI Editing gère une logique complexe que d’autres outils ne savent pas traiter. Et le produit comparable le plus proche coûte plusieurs milliers d’euros par an (logiciel enterprise).

Et si je ne veux pas supprimer mes doublons ?

Vous pouvez les marquer. Utilisez AI Editing et écrivez un prompt du type : “Add 'DUPLICATE' to the status column for all non-master items instead of deleting them.” C’est particulièrement utile pour la conformité ou si vous voulez relire les doublons avant suppression.

Et si les Master Item Rules ne correspondent pas à mon cas ?

Utilisez AI Editing. Au lieu de choisir une règle prédéfinie, vous décrivez votre logique en langage naturel, et l’IA de Datablist génère un script custom. Exemple : “Keep the record from Salesforce, but use the job title from LinkedIn.”

Puis-je créer des Master Item Rules personnalisées ?

Oui. La fonctionnalité AI Editing de Datablist vous permet d’écrire n’importe quelle règle de priorisation que vous pouvez formuler. Vous voulez conserver les lignes où la colonne A contient une valeur précise ? Prioriser selon plusieurs conditions ? Décrivez-le, et l’IA gère le reste.

Qu’est-ce qu’un identifiant unique en déduplication ?

Un identifiant unique, c’est la colonne (ou combinaison de colonnes) qui rend chaque enregistrement distinct. Par exemple, si vous utilisez “Email” comme identifiant unique, deux lignes avec le même email seront considérées comme des doublons, même si d’autres champs diffèrent. Vous pouvez aussi combiner “First Name” + “Company” pour un matching plus strict.

Comment dédupliquer une liste avec des valeurs en conflit ?

Les doublons conflictuels apparaissent quand deux enregistrements représentent la même entité mais ont des valeurs différentes sur certains champs. Pour les gérer : (1) choisissez une Master Item Rule pour définir l’enregistrement “gagnant”, (2) décidez si vous devez “combine”, “drop” ou “update” les valeurs conflictuelles, (3) utilisez la suite de déduplication de Datablist pour appliquer vos choix en masse. Pour les cas complexes, AI Editing permet de sélectionner précisément des valeurs entre plusieurs enregistrements.

Comment marquer des doublons sans les supprimer ?

Vous pouvez utiliser la fonctionnalité AI Editing dans la Deduplication and Matching Suite. Écrivez simplement un prompt du type : “Add 'DUPLICATE' to the status column for all non-master items instead of deleting them.” Vos doublons seront marqués pour relecture tout en gardant l’intégralité de vos données — parfait pour la conformité ou une validation manuelle.

Comment mettre à jour des doublons sans supprimer ?

Mettre à jour des doublons consiste à remplacer certains champs de votre enregistrement master par de meilleures données venant d’une autre source. Pour ça, vous pouvez utiliser AI Editing dans la Deduplication and Matching Suite. Vous avez juste à décrire ce que vous voulez, par exemple : “Keep records from Source A, but update the job title and company name using values from Source B.” L’IA applique votre logique à tous les groupes de doublons, puis vous pouvez supprimer les extras ou les garder marqués.