Hai esportato i tuoi dati da un’app in un file CSV e vuoi eliminare i duplicati? Hai concatenato più file CSV in un unico grande file e ora devi ripulirlo? O magari hai più fonti dati non più sincronizzate e vuoi unire tutte le versioni in un’unica lista. Microsoft Excel o Google Sheets non risolvono il problema perché non permettono di impostare un vincolo di unicità su una colonna.
Su un CSV piccolo puoi cavartela a mano. Su file più grandi, invece, ci vogliono ore per lavorare voce per voce, con un alto rischio di errori.
Ti serve uno strumento che rilevi automaticamente le righe CSV con valori simili su una o più colonne. Poi, trovati i duplicati, puoi modificarli o fonderli per consolidare i dati ed eliminare i doppioni.
Unire i duplicati nei file CSV
Datablist è perfetto per operazioni sui dati che i fogli di calcolo non gestiscono bene. Usalo quando cerchi un ottimo online CSV editor.
In questa guida, useremo 2 file CSV con migliaia di righe. Li caricheremo in un’unica collection e deduplicheremo le righe basandoci su 1 delle 4 colonne. La deduplicazione funziona anche su un singolo file CSV.
Per scaricare i CSV del tutorial: CSV File 1 e CSV File 2
Il file CSV contiene 4 colonne: First Name, Last Name, Email, Job Title. Vogliamo unire le righe che condividono lo stesso indirizzo email.
Il processo per unire i duplicati si riassume così:
- Carica i file CSV in una collection Datablist
- Seleziona le proprietà su cui cercare i duplicati
- Unisci automaticamente i duplicati senza conflitti
- Unisci manualmente i duplicati rimasti
Passo 1: Carica i file CSV in una collection Datablist
Crea una nuova collection
Il primo passo è caricare il file CSV in Datablist. Apri Datablist (nessuna registrazione richiesta) per iniziare.
Per creare una nuova collection, clicca sul pulsante "New collection" con il +. Una volta creata, assegna un nome e un’icona.
Poi clicca sul pulsante Import CSV.
Crea le proprietà per il tuo file CSV
Con il CSV caricato, puoi creare le proprietà della collection usando i nomi delle colonne del file. Datablist elenca ogni colonna trovata nel CSV così puoi creare una proprietà per ciascuna.
I dati CSV non sono tipizzati: quando leggi un CSV, tutto è testo. Per offrire filtri e ordinamenti migliori, Datablist prova a rilevare i tipi guardando le prime 100 righe. Ad esempio, se trova solo numeri imposta il tipo a numero. Stesso discorso per data, email, checkbox (valori true/false), ecc.
Verifica e importa
Nella fase di review, le righe vengono lette direttamente dal file CSV. Assicurati che i dati siano ben formattati e coerenti. Poi clicca su "Import items" e il gioco è fatto! 💪
Ripeti per gli altri file CSV
Ora che hai una collection con le proprietà configurate, esegui di nuovo il processo "Import CSV/Excel" per importare gli altri file CSV o Excel nella stessa collection.
Passo 2: Trova i duplicati
Dopo aver caricato i file CSV, il secondo passo è cercare i valori duplicati. Nella lista dati della collection, clicca sul pulsante "Duplicates Finder" nel menu "Clean" (in alto a destra).
Sono disponibili due modalità:
- All Properties - In questa modalità, Datablist cerca elementi con valori simili su tutte le proprietà. Due elementi sono considerati simili quando tutte le loro proprietà corrispondono.
- Selected Properties - In questa seconda modalità, selezioni tu le proprietà su cui fare la verifica. Due elementi sono simili quando hanno gli stessi valori su tutte le proprietà selezionate.
Qui la proprietà email basta per identificare un contatto, quindi puoi scegliere la modalità Selected Properties con la proprietà email.
Una volta terminata l’analisi, Datablist elenca tutti gli elementi duplicati in base alla proprietà email. Per ciascun elemento con uno o più duplicati, puoi:
- Modificare l’elemento - Usa i valori degli elementi incompleti per unire i dati in un unico elemento.
- Merge duplicates - Unisci i valori dagli elementi secondari all’elemento primario selezionato.
- Eliminare gli elementi in più - Se i duplicati non aggiungono valore, rimuovili.
Passo 3: Unisci e combina i duplicati automaticamente
Di solito vuoi fondere tutte le righe CSV duplicate in un unico elemento e consolidare i dati, senza perdere informazioni.
Datablist include un algoritmo automatico che unisce la maggior parte dei duplicati senza perdita di dati. Per le righe rimanenti, è disponibile un assistente per l’unione manuale.
Deduping big lists può richiedere tempo. Datablist Auto Merger elabora i duplicati in blocco e li unisce automaticamente quando possibile.
Sono disponibili tre algoritmi di unione: Unione delle righe non in conflitto, Combinazione dei valori duplicati e Eliminazione dei valori in conflitto. Consulta la documentazione sul finding dei duplicati per saperne di più.
Esegui prima l’algoritmo "Merge non conflicting duplicates" per vedere quali proprietà presentano conflitti.
Unione senza conflitti
L’algoritmo "Merge non-conflicting duplicates" esegue uno "smart merge": unisce i record con valori simili o complementari.
Ad esempio, i seguenti duplicati:
email | First Name | Last Name
james@gmail.com | James
james@gmail.com | | Bond
Verranno uniti in:
email | First Name | Last Name
james@gmail.com | James | Bond
Combinare i valori duplicati
La combinazione (o consolidamento) dei valori duplicati è ideale quando i duplicati hanno valori in conflitto ma vuoi comunque unirli senza perdere dati.
Per esempio, combinando la proprietà Phone con un punto e virgola:
email | Phone | First Name | Last Name
james@gmail.com | +33 1 34 65 23 | James |
james@gmail.com | 06 13 42 78 23 | | Bond
Verranno uniti in:
email | Phone | First Name | Last Name
james@gmail.com | +33 1 34 65 23;06 13 42 78 23 | James | Bond
Qualsiasi proprietà testuale può essere combinata. I delimitatori disponibili sono line break, semi-colon, comma e space. Puoi combinare una o più proprietà durante l’unione.
Unire elementi duplicati e combinare i valori è l’ideale per il cleaning di leads e CRM. Unisci tutti i tuoi lead duplicati e combina le proprietà Phone, Email, Notes per ottenere una lista pulita. Dopo l’export del CSV dei lead pulito, reimportalo nel tuo CRM.
Elimina i valori in conflitto
Questo algoritmo mantiene il valore dell’elemento master ed elimina gli altri valori in conflitto per unire i lead in un unico record.
L’elemento con più proprietà valorizzate viene selezionato come master.
Usa la drop conflicting values option per:
- Proprietà tecniche come
Account Idche richiedono un singolo valore. - Proprietà di tipo "Relation" che non possono avere più valori. Per esempio
Lead owner,Account. - Proprietà non testuali che non possono essere combinate. Per esempio date/ore come
Last Activity,Contacted on, e checkbox.
Passo 4: Assistente di unione manuale
Quando restano duplicati dopo l’Auto Merge, usa il Merging Assistant. Per unire i duplicati, clicca sul pulsante "Manual Merging assistant" a sinistra di ogni gruppo di duplicati.
Si apre lo strumento di unione. A destra trovi il "Primary Item" e a sinistra gli elementi duplicati rimanenti chiamati "Secondary Items". Datablist elegge come "Primary item" l’elemento con più dati.
Quando possibile, i valori delle proprietà dagli elementi secondari vengono preselezionati per essere uniti nell’elemento primario. Se più valori sono in conflitto, dovrai decidere quale mantenere.
Se il "Primary item" risultante ti convince, clicca il pulsante Merge per confermare. Tutti i "Secondary Items" verranno eliminati mantenendo un solo elemento consolidato.
Esporta in CSV se serve
Complimenti, hai deduplicato i tuoi file CSV! Se ti serve usare il risultato in un altro strumento, clicca su "Export" per esportare la collection in un nuovo file CSV.
FAQ
Quali altre manipolazioni dati offre Datablist?
I file CSV sono ovunque per definire dati strutturati in applicazioni e dataset. Nonostante la loro diffusione, manipolare CSV è complicato e spesso richiede competenze tecniche.
Per operazioni semplici, i fogli di calcolo bastano. Tuttavia, sono limitati quando si tratta di:
Se hai più file CSV da unire usando una colonna univoca, vai alla guida join CSV files.
Datablist gestisce file CSV molto grandi?
Datablist gestisce file CSV fino a 1,5 milioni di righe. Datablist è pensato non solo per aprire i CSV ma per modificarli. Per visualizzare file ancora più grandi puoi usare soluzioni di analytics. Per modificare grandi file CSV, Datablist resta una delle soluzioni migliori.
L’algoritmo di deduplica è migliore del "Rimuovi duplicati" di Microsoft Excel e Google Sheets?
I fogli di calcolo (Microsoft Excel, Google Sheets) hanno una funzione di deduplicazione che rimuove le righe simili. Per i casi d’uso business, però, eliminare le righe non è l’ideale.
L’algoritmo di deduplicazione di Datablist unisce i record duplicati: prima con uno smart merge, poi combinando i valori e, come ultima opzione, eleggendo un record master e fondendo gli altri.
Se hai domande, contattaci.








