Hai esportato i tuoi dati da un’app in un file CSV e vuoi eliminare i duplicati? Hai concatenato più file CSV in un unico grande file e ora devi ripulirlo? O magari hai più fonti dati non più sincronizzate e vuoi unire tutte le versioni in un’unica lista. Microsoft Excel o Google Sheets non risolvono il problema perché non permettono di impostare un vincolo di unicità su una colonna.

Su un CSV piccolo puoi cavartela a mano. Su file più grandi, invece, ci vogliono ore per lavorare voce per voce, con un alto rischio di errori.

Ti serve uno strumento che rilevi automaticamente le righe CSV con valori simili su una o più colonne. Poi, trovati i duplicati, puoi modificarli o fonderli per consolidare i dati ed eliminare i doppioni.

Unire i duplicati nei file CSV

Exemple of Datablist merging of duplicate entries
Exemple of Datablist merging of duplicate entries

Datablist è perfetto per operazioni sui dati che i fogli di calcolo non gestiscono bene. Usalo quando cerchi un ottimo online CSV editor.

In questa guida, useremo 2 file CSV con migliaia di righe. Li caricheremo in un’unica collection e deduplicheremo le righe basandoci su 1 delle 4 colonne. La deduplicazione funziona anche su un singolo file CSV.

Per scaricare i CSV del tutorial: CSV File 1 e CSV File 2

Il file CSV contiene 4 colonne: First Name, Last Name, Email, Job Title. Vogliamo unire le righe che condividono lo stesso indirizzo email.

Il processo per unire i duplicati si riassume così:

  1. Carica i file CSV in una collection Datablist
  2. Seleziona le proprietà su cui cercare i duplicati
  3. Unisci automaticamente i duplicati senza conflitti
  4. Unisci manualmente i duplicati rimasti

Passo 1: Carica i file CSV in una collection Datablist

Crea una nuova collection

Il primo passo è caricare il file CSV in Datablist. Apri Datablist (nessuna registrazione richiesta) per iniziare.

Per creare una nuova collection, clicca sul pulsante "New collection" con il +. Una volta creata, assegna un nome e un’icona.

Poi clicca sul pulsante Import CSV.

Crea una nuova collection

Crea le proprietà per il tuo file CSV

Con il CSV caricato, puoi creare le proprietà della collection usando i nomi delle colonne del file. Datablist elenca ogni colonna trovata nel CSV così puoi creare una proprietà per ciascuna.

I dati CSV non sono tipizzati: quando leggi un CSV, tutto è testo. Per offrire filtri e ordinamenti migliori, Datablist prova a rilevare i tipi guardando le prime 100 righe. Ad esempio, se trova solo numeri imposta il tipo a numero. Stesso discorso per data, email, checkbox (valori true/false), ecc.

Crea le proprietà della collection

Verifica e importa

Nella fase di review, le righe vengono lette direttamente dal file CSV. Assicurati che i dati siano ben formattati e coerenti. Poi clicca su "Import items" e il gioco è fatto! 💪

Verifica, importa e carica il secondo file CSV

Ripeti per gli altri file CSV

Ora che hai una collection con le proprietà configurate, esegui di nuovo il processo "Import CSV/Excel" per importare gli altri file CSV o Excel nella stessa collection.

Passo 2: Trova i duplicati

Dopo aver caricato i file CSV, il secondo passo è cercare i valori duplicati. Nella lista dati della collection, clicca sul pulsante "Duplicates Finder" nel menu "Clean" (in alto a destra).

Duplicates Finder
Duplicates Finder

Sono disponibili due modalità:

  • All Properties - In questa modalità, Datablist cerca elementi con valori simili su tutte le proprietà. Due elementi sono considerati simili quando tutte le loro proprietà corrispondono.
  • Selected Properties - In questa seconda modalità, selezioni tu le proprietà su cui fare la verifica. Due elementi sono simili quando hanno gli stessi valori su tutte le proprietà selezionate.

Qui la proprietà email basta per identificare un contatto, quindi puoi scegliere la modalità Selected Properties con la proprietà email.

Una volta terminata l’analisi, Datablist elenca tutti gli elementi duplicati in base alla proprietà email. Per ciascun elemento con uno o più duplicati, puoi:

  • Modificare l’elemento - Usa i valori degli elementi incompleti per unire i dati in un unico elemento.
  • Merge duplicates - Unisci i valori dagli elementi secondari all’elemento primario selezionato.
  • Eliminare gli elementi in più - Se i duplicati non aggiungono valore, rimuovili.
Trova ed elimina i duplicati

Passo 3: Unisci e combina i duplicati automaticamente

Di solito vuoi fondere tutte le righe CSV duplicate in un unico elemento e consolidare i dati, senza perdere informazioni.

Datablist include un algoritmo automatico che unisce la maggior parte dei duplicati senza perdita di dati. Per le righe rimanenti, è disponibile un assistente per l’unione manuale.

Deduping big lists può richiedere tempo. Datablist Auto Merger elabora i duplicati in blocco e li unisce automaticamente quando possibile.

Sono disponibili tre algoritmi di unione: Unione delle righe non in conflitto, Combinazione dei valori duplicati e Eliminazione dei valori in conflitto. Consulta la documentazione sul finding dei duplicati per saperne di più.

Auto Consolidate duplicates
Auto Consolidate duplicates

Esegui prima l’algoritmo "Merge non conflicting duplicates" per vedere quali proprietà presentano conflitti.

Listing of conflicting properties
Listing of conflicting properties

Unione senza conflitti

L’algoritmo "Merge non-conflicting duplicates" esegue uno "smart merge": unisce i record con valori simili o complementari.

Ad esempio, i seguenti duplicati:

email            |     First Name   |    Last Name
james@gmail.com  |     James
james@gmail.com  |                  |     Bond

Verranno uniti in:

email            |     First Name   |    Last Name
james@gmail.com  |     James        |     Bond

Combinare i valori duplicati

La combinazione (o consolidamento) dei valori duplicati è ideale quando i duplicati hanno valori in conflitto ma vuoi comunque unirli senza perdere dati.

Per esempio, combinando la proprietà Phone con un punto e virgola:

email            |       Phone       |     First Name   |    Last Name    
james@gmail.com  |  +33 1 34 65 23   |      James       |                 
james@gmail.com  |  06 13 42 78 23   |                  |     Bond        

Verranno uniti in:

email            |   Phone                         |     First Name   |    Last Name
james@gmail.com  |  +33 1 34 65 23;06 13 42 78 23  |     James        |     Bond    

Qualsiasi proprietà testuale può essere combinata. I delimitatori disponibili sono line break, semi-colon, comma e space. Puoi combinare una o più proprietà durante l’unione.

Unire elementi duplicati e combinare i valori è l’ideale per il cleaning di leads e CRM. Unisci tutti i tuoi lead duplicati e combina le proprietà Phone, Email, Notes per ottenere una lista pulita. Dopo l’export del CSV dei lead pulito, reimportalo nel tuo CRM.

Elimina i valori in conflitto

Questo algoritmo mantiene il valore dell’elemento master ed elimina gli altri valori in conflitto per unire i lead in un unico record.

L’elemento con più proprietà valorizzate viene selezionato come master.

Usa la drop conflicting values option per:

  • Proprietà tecniche come Account Id che richiedono un singolo valore.
  • Proprietà di tipo "Relation" che non possono avere più valori. Per esempio Lead owner, Account.
  • Proprietà non testuali che non possono essere combinate. Per esempio date/ore come Last Activity, Contacted on, e checkbox.

Passo 4: Assistente di unione manuale

Quando restano duplicati dopo l’Auto Merge, usa il Merging Assistant. Per unire i duplicati, clicca sul pulsante "Manual Merging assistant" a sinistra di ogni gruppo di duplicati.

Merge duplicates
Merge duplicates

Si apre lo strumento di unione. A destra trovi il "Primary Item" e a sinistra gli elementi duplicati rimanenti chiamati "Secondary Items". Datablist elegge come "Primary item" l’elemento con più dati.

Eliminate duplicate rows in a CSV
Eliminate duplicate rows in a CSV

Quando possibile, i valori delle proprietà dagli elementi secondari vengono preselezionati per essere uniti nell’elemento primario. Se più valori sono in conflitto, dovrai decidere quale mantenere.

Se il "Primary item" risultante ti convince, clicca il pulsante Merge per confermare. Tutti i "Secondary Items" verranno eliminati mantenendo un solo elemento consolidato.

Esporta in CSV se serve

Complimenti, hai deduplicato i tuoi file CSV! Se ti serve usare il risultato in un altro strumento, clicca su "Export" per esportare la collection in un nuovo file CSV.

CSV Export
CSV Export

FAQ

Quali altre manipolazioni dati offre Datablist?

I file CSV sono ovunque per definire dati strutturati in applicazioni e dataset. Nonostante la loro diffusione, manipolare CSV è complicato e spesso richiede competenze tecniche.

Per operazioni semplici, i fogli di calcolo bastano. Tuttavia, sono limitati quando si tratta di:

Se hai più file CSV da unire usando una colonna univoca, vai alla guida join CSV files.

Datablist gestisce file CSV molto grandi?

Datablist gestisce file CSV fino a 1,5 milioni di righe. Datablist è pensato non solo per aprire i CSV ma per modificarli. Per visualizzare file ancora più grandi puoi usare soluzioni di analytics. Per modificare grandi file CSV, Datablist resta una delle soluzioni migliori.

L’algoritmo di deduplica è migliore del "Rimuovi duplicati" di Microsoft Excel e Google Sheets?

I fogli di calcolo (Microsoft Excel, Google Sheets) hanno una funzione di deduplicazione che rimuove le righe simili. Per i casi d’uso business, però, eliminare le righe non è l’ideale.

L’algoritmo di deduplicazione di Datablist unisce i record duplicati: prima con uno smart merge, poi combinando i valori e, come ultima opzione, eleggendo un record master e fondendo gli altri.


Se hai domande, contattaci.