Les fichiers Excel sont largement utilisés pour stocker des données de listings. Que ce soit pour gérer des listes de clients ou d'entreprises, ou pour nettoyer des catalogues de produits, Microsoft Excel est un outil de tableur simple pour manipuler vos données. Mais comme tout tableur, il n'est pas possible d'y ajouter de vraies contraintes pour interdire les doublons. Dès que plusieurs personnes éditent un même fichier Excel ou que des données y sont ajoutées fréquemment, le risque de retrouver des doublons augmente.
Heureusement, il est possible de traiter les données a posteriori pour supprimer ou fusionner les valeurs en double.
La suppression des doublons est très facile à réaliser dans Microsoft Excel (menu "Data" -> "Remove Duplicates") mais fusionner les doublons sans perte d'informations est bien plus complexe. En fusionnant des lignes dupliquées, l'objectif est de supprimer les lignes identiques tout en regroupant les lignes complémentaires si possible. Enfin, les valeurs conflictuelles doivent être repérées pour un traitement manuel.
Datablist est une solution en ligne intuitive pour manipuler vos données. C’est l’outil parfait pour identifier et fusionner les valeurs en double dans un fichier Excel. Le Duplicates Finder de Datablist détecte et fusionne automatiquement les doublons complémentaires. Les éléments en conflit sont mis de côté pour un traitement manuel. Vous pouvez utiliser Datablist gratuitement en ligne sans même créer de compte.
Pourquoi ne pas utiliser Excel pour fusionner les doublons ?
Microsoft Excel est un outil puissant et propose la fonctionnalité "Remove Duplicates". Cependant, "Remove Duplicates" conserve uniquement la première ligne "identique" trouvée et supprime toutes les suivantes. Si les deux lignes sont complémentaires, cela provoque une perte d'information. Fusionner les doublons ne devrait pas être compliqué. Les tableurs sont de formidables outils génériques, mais ils ne sont pas conçus pour manipuler des données structurées. Datablist cible précisément le travail de listing de données et propose des fonctionnalités simples pour la manipulation de données.
Dans ce guide, vous allez apprendre à détecter et fusionner des doublons dans un fichier Excel sans perte d'informations.
Pour illustrer ce guide, nous allons prendre un fichier Excel contenant des contacts avec 4 champs : First Name
, Last Name
, Email
, Job Title
et fusionner tous les contacts sur la base de leur email.
Le processus tient en ces étapes :
- Charger votre fichier Excel
- Détecter les doublons dans votre fichier Excel
- Fusionner automatiquement les doublons sans conflit
- Fusionner manuellement les doublons restants
Étape 1 : Charger le fichier Excel
La première étape consiste à importer votre fichier Excel dans Datablist. Pour cela, créez une collection qui accueillera vos données. Utilisez l’assistant "Import CSV/Excel" pour charger votre fichier.
Créez les propriétés et faites la correspondance avec les colonnes Excel
Une collection Datablist ressemble à un tableur mais avec une structure de données. Les colonnes sont appelées « Properties ». Si une property est définie comme Email
, Datablist s’assure que seules des adresses email valides sont acceptées. Idem pour les dates, cases à cocher, etc.
Une fois votre fichier Excel chargé, sélectionnez les colonnes à importer, puis associez-les à une propriété existante ou créez de nouvelles properties.
Datablist détecte automatiquement les types de données courantes en analysant les premières lignes.
Important
- Les cellules contenant des formules seront calculées à l’importation.
- Vos données doivent se trouver dans la première feuille du fichier.
Si vos données sont dispersées sur plusieurs feuilles ou fichiers, importez-les toutes dans une seule collection Datablist et mappez-les avec les mêmes properties.
Étape 2 : Trouver les doublons dans le fichier Excel
Une fois vos données importées, utilisez le Duplicates Finder de Datablist pour détecter et fusionner les doublons.
Dans la liste de données de la collection, cliquez sur le bouton "Duplicates Finder" dans le menu "Clean" (en haut à droite).
Deux modes sont proposés :
- All Properties : Datablist recherche des éléments ayant les mêmes valeurs sur toutes les properties. Deux éléments sont considérés comme similaires si tous leurs champs correspondent.
- Selected Properties : Sélectionnez les properties pertinentes pour la détection de similitude. Deux éléments seront considérés comme similaires s’ils ont les mêmes valeurs sur les properties choisies.
Dans cet exemple, la property email
suffit pour identifier un contact, sélectionnez donc le mode Selected Properties avec la property email.
L’analyse des doublons est totalement non-destructive. Tant que vous ne validez pas la fusion (automatique ou manuelle), vos données ne sont pas modifiées.
Étape 3 : Fusion automatique des duplications
Une fois tous les doublons listés, la fusion peut commencer ! Cela se fait en deux temps :
- Lancez la "smart merge" de Datablist pour fusionner automatiquement les lignes là où c’est possible.
- Utilisez ensuite l’"Assistant de fusion" manuel pour les doublons restants.
Les enregistrements ayant des valeurs similaires ou complémentaires sont regroupés en un seul. Par exemple :
email | First Name | Last Name
james@gmail.com | James
james@gmail.com | | Bond
Sera fusionné en :
email | First Name | Last Name
james@gmail.com | James | Bond
Une seconde option de fusion permet de consolider les lignes en double en combinant les valeurs conflictuelles dans un seul élément. Les différentes valeurs sont fusionnées à l’aide d’un séparateur.
Par exemple :
email | Notes | Phone
james@gmail.com | Met during an event | 0 493 492 334
james@gmail.com | To be contacted | 06 67 23 42 23
Avec la combinaison par Notes (avec un point-virgule
) et Phone (avec une virgule
), on obtiendra :
email | Notes | Phone
james@gmail.com | Met during an event;To be contacted | 0 493 492 334,06 67 23 42 23
Grâce à cette option, consolidez des milliers de lignes dupliquées sans rien perdre. Utilisez cet outil puissant pour nettoyer instantanément vos listes de contacts, leads ou sociétés !
Étape 4 : Fusionner manuellement les éléments en conflit
La fusion automatique fait le gros du travail. S’il reste des doublons après coup, c’est qu’ils sont en conflit. Un conflit survient lorsque deux éléments ont des valeurs différentes sur une même property. Pour les fusionner, il faudra choisir quelle valeur retenir.
Pour cela, éditez les éléments concernés directement ou lancez l’Assistant de fusion de Datablist. L’assistant détermine un élément principal (celui contenant le plus de données). Vous pouvez alors transférer les valeurs choisies des autres éléments vers l’élément principal. À la fin, tous les doublons sont supprimés sauf l’élément principal.
Exporter le résultat au format CSV ou Excel
Bravo ! Vos données sont dédupliquées !
Pour exporter la collection pour une utilisation dans une autre application, cliquez sur "Export" dans l’en-tête, puis sélectionnez CSV ou Microsoft Excel.