Gestire record duplicati nei tuoi dataset è un classico grattacapo. Trovare i duplicati è solo il primo passo; ripulirli spesso è l’altra metà della sfida.

A volte non vuoi ancora fare un merge completo dei duplicati.

Potresti avere la stessa azienda con nomi leggermente diversi ("Innovate Corp", "Innovate Corporation", "Innovate Corp.") in più record duplicati.

E se potessi standardizzare un campo specifico, come il company name o il job title, su tutti i record dentro lo stesso gruppo di duplicati senza fare merge dei record?

In questa guida scoprirai come normalizzare i valori di un campo specifico all’interno dei gruppi di duplicati mantenendo intatti i singoli record:

Che cos'è la normalizzazione dei dati?

La normalizzazione, in questo contesto, significa portare i dati a un formato coerente. Con i duplicati, le incoerenze nascono spesso in campi specifici. Per esempio:

  • Company Names: "Tech Solutions Inc.", "Tech Solutions, LLC", "Tech Solutions"
  • Job Titles: "Software Engineer", "Software Dev.", "Eng., Software"
  • Addresses: "123 Main St", "123 Main Street", "123 main st"
  • Countries: "USA", "United States", "U.S.A."

L’obiettivo della normalizzazione è scegliere un unico valore standard (ad esempio "Tech Solutions" o "United States") e applicarlo al campo rilevante su tutti i record identificati come duplicati.

Questo rende i dati più puliti, facili da analizzare e affidabili per filtri o report, anche se i record duplicati restano separati. È un passaggio cruciale nel data cleaning.

Introduzione ad AI Processing in Duplicates Finder

Il Duplicates Finder di Datablist è già uno strumento potente per identificare record simili. Oltre alle opzioni per fare merge automatico o manuale dei duplicati, la modalità AI Processing aggiunge un livello di flessibilità in più.

Invece di regole predefinite per il merge, con AI Processing sei tu a definire la logica usando un prompt in linguaggio naturale. Puoi dire all’AI esattamente come gestire i duplicati. Questo include attività come:

  • Selezionare un master record in base a criteri specifici (es. il più recente aggiornamento).
  • Fare il merge solo di alcuni campi mantenendone altri separati.
  • Eseguire calcoli durante il merge (come somma dei valori).
  • 👉 E, cosa fondamentale per questa guida: aggiornare un campo specifico su tutti i duplicati con un unico valore normalizzato senza fare merge dei record.

Trasforma la complessità di uno script di manipolazione dati in una semplice conversazione con la nostra AI.

Come normalizzare i dati nei duplicati (step-by-step)

Vediamo come usare AI Processing per normalizzare un campo (es. Company Name) tra record duplicati.

Step 1: Prepara i dati

Per prima cosa, importa i tuoi dati in Datablist.

  1. Create a Collection: Clicca sul pulsante "+" nella sidebar per creare una nuova collection.
Create a collection in Datablist
Create a collection in Datablist
  1. Import Data: Importa i dati da un file CSV o Excel. Se provengono da più file, importali nella stessa collection. Datablist ti guiderà nel mapping delle colonne alle proprietà. Assicurati di importare correttamente il campo da normalizzare (es. Company Name) e i campi che userai per identificare i duplicati (es. Email, Website).
Import your dataset (CSV/Excel)
Import your dataset (CSV/Excel)

In questo dataset di esempio, vediamo già nomi azienda duplicati che andranno normalizzati.

Review imported data and properties
Review imported data and properties

Step 2: Trova i duplicati

Ora identifica i record duplicati.

2.a Apri Duplicates Finder

Clicca su "Clean" nel menu in alto, poi seleziona "Duplicates Finder".

Open Duplicates Finder
Open Duplicates Finder

2.b Scegli gli identificatori per la deduplica

Seleziona la proprietà (o le proprietà) che identificano un duplicato in modo univoco.

Nel nostro esempio, vogliamo dedupe company names. Quindi selezioniamo il campo del nome.

Select properties to identify duplicates
Select properties to identify duplicates

Per le aziende puoi anche usare Website URL o LinkedIn Company Page URL.

Per i contatti, Email o Phone Number sono scelte comuni.

2.c Configura l'algoritmo

Nel passo successivo, scegli l’algoritmo di matching.

"Smart" funziona bene con URL o email, gestendo piccole variazioni. "Exact" è più rigoroso. Puoi anche usare matching fonetico o fuzzy per i nomi.

Seleziona anche il Processor adatto ai tuoi dati.

Qui seleziono il Company Name processor per gestire specifiche variazioni dei nomi aziendali (suffissi societari, termini geografici, ecc.)

Configure the matching algorithm and processor
Configure the matching algorithm and processor

2.c Esegui la verifica

Clicca su "Run duplicates check".

Datablist analizzerà i dati e mostrerà gruppi di potenziali duplicati.

Review duplicate groups found
Review duplicate groups found

Step 3: Seleziona AI Processing

Invece di usare "Auto Merge" o il merge manuale, clicca il pulsante AI Editing nella pagina dei risultati dei duplicati. Questo attiva la modalità guidata dall’AI.

Step 4: Scrivi il prompt di normalizzazione

Qui dici all’AI cosa fare. Devi indicare di:

  1. Identificare il valore più comune per la proprietà target all’interno di ciascun gruppo di duplicati.
  2. Aggiornare tutti i record del gruppo usando quel valore per quello specifico campo.
  3. Specificare chiaramente di non eliminare alcun record.

Ecco un esempio di prompt per normalizzare la proprietà /Company Name:

Dedupe Prompt
Normalizza la proprietà /CompanyName usando il valore più comune in ogni gruppo. Salta il gruppo se tutti i valori di /CompanyName sono già uguali. Non eliminare alcun record.
Write the AI prompt specifying the normalization logic
Write the AI prompt specifying the normalization logic

Spiegazione del prompt:

  • Normalize/Normalizza la /CompanyName property...: specifica il campo target. Usa /PropertyName o {{PropertyName}} per riferirti alle colonne.
  • ...using the most common value in each group.: definisce la logica per scegliere il valore standard. Puoi anche usare criteri come "valore più lungo", "più corto", oppure riferirti a un altro campo (es. "usa il valore del record con la data /UpdatedAt più recente").
  • Skip the group if all /CompanyName values are already the same.: istruzione di efficienza per evitare elaborazioni inutili.
  • Do not delete any records.: fondamentale per assicurarsi che vengano aggiornati solo i campi, senza unire o rimuovere record.
Use /PropertyName syntax to select the target property in the prompt
Use /PropertyName syntax to select the target property in the prompt

Step 5: Genera e anteprima dello script

Clicca Generate and preview changes. L’AI di Datablist interpreterà il prompt e genererà uno script per eseguire l’azione.

Submit the prompt and wait for the AI to generate the script
Submit the prompt and wait for the AI to generate the script

Tranquillo, non devi scrivere o modificare alcuno script.

  • Script Explanation: un riepilogo in inglese semplice di ciò che farà lo script. Verifica che sia allineato alla tua intenzione.
  • Result Preview: una tabella che mostra in anteprima come lo script modificherà un campione dei gruppi di duplicati, prima che vengano applicate le modifiche. Controlla il campo target (es. /Company Name) per assicurarti che riporti il valore normalizzato previsto su tutto il campione.
Review the script explanation and preview the changes
Review the script explanation and preview the changes

Step 6: Esegui lo script

Se spiegazione e anteprima sono corrette, clicca Run AI Script. Datablist eseguirà lo script generato su tutti i gruppi di duplicati identificati.

Run the generated script
Run the generated script

Step 7: Verifica le modifiche

Al termine, Datablist fornisce un riepilogo e un Changes List scaricabile.

Utile se devi replicare le modifiche in un sistema esterno (ad esempio per modificare i lead nel CRM, ecc.)

Download the list of changes made
Download the list of changes made

Torna alla vista principale della collection. Vedrai che il campo target (es. /CompanyName) è ora coerente in tutti i record all’interno dei gruppi di duplicati, mentre i record restano separati.

Review the final data with normalized values in the collection
Review the final data with normalized values in the collection

Hai normalizzato con successo un campo tra duplicati senza fare merge! 🚀

Quando normalizzare senza fare merge

Quando conviene normalizzare un campo invece di fare un merge completo?

  • Standardizzare nomi di aziende o contatti: Ripulisci varianti come "Example Ltd", "Example Limited" o "Jon Doe", "Jonathan Doe" sui duplicati prima di definire la strategia di merge finale.
  • Pulire i job title: Unifica titoli come "VP Marketing", "Vice President Marketing", "Marketing VP" per report e analisi coerenti.
  • Normalizzare le location: Assicura nomi paese coerenti ("UK", "United Kingdom") o abbreviazioni di stato ("CA", "California") nei record di indirizzo.
  • Preparare un import/update nel CRM: Standardizza i campi chiave prima di importare in un CRM con regole di validazione rigide, anche se mantieni temporaneamente i duplicati.
  • Data auditing: Conserva i record duplicati originali per audit o storico, ma normalizza gli identificatori chiave per facilitare l’analisi.
  • Pulizia incrementale: Normalizza un campo alla volta come parte di un flusso di data cleaning più ampio, prima di arrivare a merge o cancellazioni definitive.

Perché normalizzare invece di fare merge?

  • Preserva la granularità dei record: Mantieni intatti i singoli duplicati, utile per tracciare origini, interazioni specifiche o dati storici associati a ciascun record.
  • Gestisce l’incertezza: Utile quando i duplicati non sono corrispondenze perfette. Normalizzare un campo chiave dà coerenza senza forzare un merge potenzialmente errato di record con altri dati divergenti.
  • Approccio a fasi: Permette un processo di data cleaning più controllato. Prima normalizzi, poi valuti se fare merge o eliminare.
  • Semplicità: Azione mirata. Intervieni su un solo campo senza toccare il resto dei dati nei record duplicati.

Conclusione

La funzione AI Processing nel Duplicates Finder di Datablist offre un modo flessibile e potente per gestire i dati duplicati. Consentendo di normalizzare campi specifici nei gruppi di duplicati senza fare merge dei record, diventa uno step intermedio decisivo in molti workflow di data cleaning. Con semplici prompt in linguaggio naturale, ottieni coerenza dei dati in modo rapido ed efficiente, risparmiando ore di lavoro manuale e riducendo il rischio di errori. Che tu stia standardizzando company name, job title o location, questa funzione ti aiuta a migliorare la qualità dei dati.

FAQ

  1. AI Processing è incluso nel mio piano Datablist? AI Processing, inclusa la generazione e l’esecuzione di script per la normalizzazione, è disponibile nei piani a pagamento di Datablist. Consulta la Pricing Page per i dettagli.

  2. Posso normalizzare più campi con un unico prompt? Sì, puoi scrivere un prompt per normalizzare più campi in una volta. Ad esempio: "Normalizza la proprietà /Company Name usando il valore più comune in ogni gruppo. Normalizza la proprietà /Country usando il valore più comune in ogni gruppo. Non eliminare alcun record."

  3. Cosa succede se l’AI interpreta male il mio prompt? Controlla sempre con attenzione la spiegazione dello script e l’anteprima dei risultati prima di eseguire. Se l’anteprima non è corretta, affina il prompt rendendolo più chiaro e specifico, quindi rigenera lo script.

  4. Posso annullare le modifiche fatte dallo script AI? Una volta eseguito, lo script applica le modifiche direttamente. Datablist ha una funzione di undo per le azioni recenti all’interno della sessione, ma la best practice è clonare la collection prima di trasformazioni importanti, così da poter tornare indietro se necessario.

  5. In cosa differisce dalla classica opzione di merge "Combine conflicting properties"? L’opzione standard "Combine" unisce i record duplicati in un unico master e concatena i valori di testo in conflitto in un solo campo. Con AI Processing, usando il prompt giusto, aggiorni il campo su tutti i record duplicati a un unico valore scelto e mantieni separati i record. Non fa merge dei record né concatena valori, a meno che tu non lo chieda esplicitamente.