El data matching, también llamado record linkage o deduplicación, es el proceso de identificar y vincular registros relacionados a través de múltiples datasets. Es el ingrediente secreto que convierte datos crudos y desordenados en un activo valioso para marketing, ventas o análisis.

La mayoría de las herramientas disponibles son complejas y costosas. Datablist es una aplicación online, compatible con Mac OS, Microsoft Windows y Linux, para hacer data matching de forma rápida. Implementa exact match, phonetic y algoritmos avanzados de fuzzy matching.

En esta guía, aprenderá a desmitificar la complejidad del data matching. Tanto si empieza desde cero como si es un profesional buscando optimizar su proceso, este tutorial le aportará valor.

Aquí tiene un resumen rápido de los puntos sobre Data Matching que encontrará en este artículo:

Empiece a usar nuestra herramienta online de Data Matching en segundos. Sin llamadas de ventas ni presentaciones en PowerPoint.

Paso 1: Cargar sus conjuntos de datos

El primer paso es cargar sus datasets en Datablist. Datablist es una herramienta online para gestión de listas. Puede ver y editar archivos CSV y archivos Excel. Es la herramienta perfecta para gestionar su lista de Leads, limpiar datos de clientes o limpiar datos extraídos de la web.

Para empezar, cree una colección para cargar su primer dataset.

Create a new collection
Create a new collection

Luego, haga clic en el botón Import.

Import CSV/Excel file
Import CSV/Excel file

Una vez importado su primer dataset, puede:

  • Importar otros datasets con estructuras de datos comunes en la misma colección.
  • Importar datasets con estructuras diferentes en colecciones nuevas.

El Duplicates Finder de Datablist encuentra registros coincidentes dentro de una sola colección o entre colecciones con estructuras de datos distintas.

Paso 2: Limpiar sus datos si es necesario

El segundo paso es la limpieza de datos. Limpiar los datos es un prerrequisito esencial para el data matching: garantiza la precisión y fiabilidad del proceso. Datos sucios o inconsistentes pueden llevar a emparejamientos incorrectos y resultados poco fiables. En esencia, la limpieza de datos allana el camino para un data matching exitoso.

Cuando aparecen en nombres (de personas o empresas), no aportan nada y pueden impedir que el algoritmo de deduplicación detecte duplicados.

Datablist incluye una lista de herramientas de limpieza de datos:

  • Remove symbols and punctuation - Textos extraídos pueden contener emojis y símbolos ASCII, o nombres con puntuación. El algoritmo de matching de Datablist los ignora para el emparejamiento, pero pueden impedir la fusión automática durante el proceso de deduplicación.
  • Remove extra spaces - Un espacio adicional entre palabras basta para que dos cadenas difieran. Los algoritmos de matching de Datablist preprocesan los textos para quitar espacios extra, pero también pueden impedir la fusión automática durante el proceso de deduplicación.
  • Extract email addresses, URLs, etc. from texts - Si su dataset tiene texto no estructurado con emails, URLs, menciones, tags, etc., use nuestro Data Extractor para extraer esas entidades y estructurar sus datos. Con entidades estructuradas, el Data Matching será más sencillo.
  • Remove HTML tags - Otra función de limpieza es convertir cadenas con etiquetas HTML a texto plano. Así puede emparejar listas extraídas que contienen HTML con otros datasets.
  • Convert text to DateTime, Number, Boolean, etc. - Datablist ofrece estructura de datos real con formatos nativos (DateTime, Number, Boolean, etc.). Un paso importante es convertir texto crudo a formato nativo. DateTime y números nativos son clave para reglas avanzadas de fusión cuando necesita elegir un ítem maestro por comparación de valores (por ejemplo, la fecha más reciente).
  • Change text case to get consistent formatting - Cambiar el uso de mayúsculas/minúsculas es simple pero necesario. Datablist incluye varios algoritmos de cambio de case).
  • Split o merge properties - Ideal para datos multivalor. Si una propiedad contiene varios emails separados por comas/semicolon/espa­cios, la herramienta Split Property de Datablist creará varias propiedades con un único email cada una.
  • Eliminar o reemplazar valores vacíos - Use las funciones de filtrado de Datablist para filtrar valores vacíos o filas vacías.

Consulte nuestra guía de limpieza de datos para más ejemplos e instrucciones.

Normalizar nombres de personas

Trabajar con datasets de personas es común en la deduplicación de datos. Clientes, Leads y datasets de prospectos son ejemplos de listas de personas. En el mejor de los casos, el matching se basa en identificadores únicos como emails o números de identidad. Sin esos identificadores, o para cruzar personas entre datasets, necesitará usar los nombres en el proceso.

El preprocesamiento de nombres asegura un formato uniforme y reduce errores durante la deduplicación.

Eliminar ruido en los nombres

Los nombres pueden variar mucho. Apodos, abreviaturas, ortografías alternativas y caracteres especiales son habituales.

Use la potente herramienta Find & Replace para eliminar prefijos, sufijos, stop-words, añadidos regionales y otras palabras innecesarias.

Por ejemplo, para quitar títulos de cortesía, use esta expresión regular:

^\s*(mr|mrs|dr|miss|ms|sir|madam|m).?\s

Y reemplácela por una cadena vacía.

Remove name titles
Remove name titles
Remove name titles preview
Remove name titles preview

Notas Si no está familiarizado con las expresiones regulares, contáctenos y le ayudaremos a limpiar sus datos.

Dividir el nombre completo en partes

Datablist es mucho más que limpieza: también ofrece data enrichment. Ejemplos de enrichment son lead enrichments o traducciones de CSV con Deepl.

El Name Parser es un enrichment perfecto para limpiar nombres de personas. Toma un nombre completo y devuelve sus partes: nombre, segundo nombre y apellido. Además, devuelve el género más probable y el país más común para ese nombre.

Usa datos estadísticos para dividir nombres completos.

Para usarlo, abra el "Enrich Menu" desde los botones superiores.

Enrich Menu
Enrich Menu

Luego, seleccione "Name Parser".

Name Parser Enrichment
Name Parser Enrichment

Después, seleccione la propiedad con los nombres. Y asigne o cree nuevas propiedades para guardar los resultados. La propiedad de nombre completo no se modificará; solo se escribirán las propiedades de salida con los resultados.

Name Parser Configuration
Name Parser Configuration

Normalizar nombres de empresas

También puede quitar ruido de los nombres de empresa: prefijos, sufijos, stop-words, añadidos regionales u otros elementos que dificultan el matching.

Un ejemplo típico es eliminar sufijos como "Inc." o "GmbH".

Use esta expresión regular en la herramienta Find & Replace:

,?\s(llc|inc|incorporated|corporation|corp|co|gmbh|ltd).?$

Y reemplácela por una cadena vacía.

Remove company name suffixes
Remove company name suffixes
Remove company names suffix preview
Remove company names suffix preview

Normalizar nombres de empresa y direcciones en todos sus datasets es clave para llevarlos a un formato estándar.

Normalizar nombres de calles

Si realiza Data Matching con direcciones postales, la normalización de nombres de calles es crucial. Las direcciones pueden escribirse con abreviaturas, prefijos direccionales o sufijos numéricos. Sin normalizar, la misma calle puede aparecer con múltiples representaciones, complicando el matching.

Por ejemplo: Main 9 St, Main 9TH St. y Main 9th Street se refieren a la misma calle. O Washington Blvd y Washington Boulevard.

Usar algoritmos fuzzy para estas diferencias no es eficiente. Entre Washington Blvd y Washington Boulevard hay varios cambios de letras; la distancia de similitud calculada por fuzzy-matching será alta.

Una mejor forma es normalizar los nombres de calles. Un formato coherente asegura consistencia.

Datablist ofrece normalización de nombres de calles para formatos en inglés: estandariza abreviaturas, números de calle, etc.

Notas
La normalización de calles funciona con direcciones separadas en campos. La información del nombre de la calle debe estar en una propiedad distinta. Un valor de dirección completa no funcionará.

Haga clic en "Normalize Street Names" desde el menú "Clean".

Data Normalization menu
Data Normalization menu

Luego, seleccione la propiedad con los nombres de calle y elija "Normalize english street names".

Street Names normalization
Street Names normalization

Revise la vista previa de los cambios y haga clic en "Run".

Street Name Normalization preview
Street Name Normalization preview

Paso 3: Emparejar registros en una o varias colecciones

Con los datos limpios y normalizados, pasamos al data matching. En este paso agruparemos los registros similares.

Start Data Matching
Start Data Matching

Datablist ofrece dos formas de comparar registros:

  • Selected properties comparison - El modo más usado. Usted define las propiedades a comparar. Este modo es compatible con matching entre varias colecciones.
  • All Properties comparison - En este modo, el Duplicates Finder de Datablist identifica y elimina registros exactamente iguales: deben tener los mismos datos en las mismas propiedades. Si una propiedad está vacía, los registros no se emparejarán.
Select data matching mode
Select data matching mode

Seleccione propiedades para el matching

Para el resto de la guía usaremos el modo "Selected Properties & Multi Collections".

El siguiente paso es seleccionar las propiedades que se usarán para el matching. Si eligió varias colecciones en el paso anterior, se le pedirá un mapeo de propiedades para cada colección.

Notas
Datablist intentará mapear automáticamente sus propiedades entre colecciones usando sus nombres.

Data Mapping
Data Mapping

Elija el algoritmo de matching

En el paso siguiente, verá las propiedades seleccionadas y deberá configurar los algoritmos de comparación.

Datablist implementa los siguientes algoritmos de matching:

  • Exact - Recomendado para propiedades no textuales como DateTime, Number, Boolean, etc. Para texto, puede decidir si la comparación distingue mayúsculas. El algoritmo exact elimina espacios iniciales y finales.

  • Smart - Preprocesa sus ítems para hacer matching con ligeras variaciones. Empareja URLs con distintos protocolos, y maneja el orden de palabras y la puntuación. "John-Doe" y "Doe John" coincidirán.

  • Phonetic con algoritmo Double Metaphone - Datablist implementa Double Metaphone para matching fonético. Convierte palabras en códigos que representan su pronunciación. Dos palabras con sonido similar obtendrán el mismo código.

  • Fuzzy matching con algoritmos de distancia - También implementa fuzzy matching con las distancias Jaro-Winkler y Levenshtein. Al seleccionarlo, debe definir un umbral de similitud. Cuanto mayor el umbral, menos variación permitida.

Consulte nuestra documentación para más detalles.

Data Matching Algorithms
Data Matching Algorithms

Notas

  • Smart, Phonetic y los algoritmos fuzzy solo aplican a propiedades basadas en texto (incluyendo Email, Text, LongText).
  • Las propiedades URL solo son compatibles con Exact y Smart.

Paso 4: Eliminar o fusionar grupos coincidentes (deduplicación)

El Duplicates Finder de Datablist devuelve los grupos coincidentes en pocos segundos.

Fusión automática para deduplicación en una colección

La herramienta de Data Matching de Datablist incluye un algoritmo avanzado para fusionar duplicados, con dos modos:

Notas:
Esta función solo está disponible en la deduplicación de una sola colección. En deduplicaciones multi-colección la estructura de datos puede variar entre colecciones.

Fusión automática sin conflictos de datos

Datablist detectará automáticamente todos los duplicados que pueden fusionarse sin perder información.

Funciona así:

  • Si todos los ítems duplicados tienen los mismos valores en las propiedades, se conservará un único ítem y se eliminarán los demás.
  • Si los ítems duplicados son complementarios, se seleccionará como principal el ítem con más información y se rellenarán sus propiedades usando las de los otros ítems. Luego, se eliminarán todos excepto el principal.
  • Si los duplicados tienen valores en conflicto, se omitirán para fusión manual.

Fusión automática con resolución de conflictos

Al ejecutar el algoritmo de fusión automática, el Duplicates Finder de Datablist detecta propiedades en conflicto. Un conflicto ocurre cuando dos ítems tienen valores diferentes para una propiedad. Para poder fusionarlos, debe elegir entre dos opciones:

  • Combinar valores de propiedades - Permite concatenar valores con un delimitador. Por ejemplo, si dos "Phone" distintos existen para un registro similar, puede concatenarlos con punto y coma. Ideal para emails, teléfonos, notas, etc.
  • Descartar valores de propiedades - Para propiedades no textuales, es posible conservar un solo valor y descartar el conflictivo. Si dos DateTime difieren, no tiene sentido concatenarlos: hay que elegir uno. Útil también con identificadores externos (p. ej., IDs de cuenta en su CRM), que deben ser únicos y no una cadena concatenada.

Reglas de limpieza para matching multi-colección

Cuando ejecuta el Data Matching de Datablist sobre varios datasets, la fusión automática no estará disponible. Sus colecciones pueden tener estructuras de datos diferentes.

En su lugar, Datablist ofrece una función de limpieza para eliminar ítems duplicados en todas las colecciones excepto una. Úsela para asegurar unicidad de ítems en sus datasets.

Data Cleaning for multi-dataset matching
Data Cleaning for multi-dataset matching

Se muestra una vista previa de los cambios antes de ejecutar el algoritmo de limpieza.

Cleaning Rule preview
Cleaning Rule preview

Fusión manual con el Merging Assistant

Para los registros duplicados restantes, hay un asistente de fusión manual.

Para fusionar duplicados, haga clic en el botón "Manual Merging Assistant" a la izquierda de cada grupo.

Open Manual Merging
Open Manual Merging

Se abrirá la herramienta de fusión. A la derecha verá el "Primary Item" y a la izquierda los duplicados restantes, llamados "Secondary Items". Datablist elige como "Primary item" el que más datos tiene.

Manual Merging configuration
Manual Merging configuration

Cuando es posible, los valores de propiedades de los secondary items se seleccionan automáticamente para integrarse en el primary item. Si varios valores entran en conflicto, deberá decidir qué valor conservar.

Si el "Primary item" resultante le convence, haga clic en Merge para confirmar. Todos los secondary items se eliminarán para conservar un único ítem combinado.

Notas El Manual Merging Assistant está disponible en deduplicación multi-colección cuando las colecciones comparten una estructura similar (mismas propiedades).

Descargar grupos duplicados para fusionar con otra herramienta

Por último, la herramienta de Data Matching de Datablist permite exportar los grupos duplicados detectados. Puede exportar un CSV o Excel con todos los ítems duplicados listados consecutivamente.

Download duplicate groups
Download duplicate groups

Use el archivo para limpiar sus registros con otra herramienta (por ejemplo, una hoja de cálculo) o para análisis más complejos.

FAQ

¿Qué es el Data Matching?

El data matching, también conocido como record linkage o deduplicación, es el proceso de identificar y vincular registros relacionados dentro o entre datasets. Su objetivo es mejorar la calidad, precisión y consistencia reconociendo y consolidando entradas duplicadas o similares que representan las mismas entidades, personas u objetos.

Es útil para limpiar datasets que acumulan duplicados con el tiempo o para combinar varios datasets con campos similares o solapados.

El data matching puede usar campos discriminantes como email, URL del sitio web o identificadores; o una combinación de atributos no únicos (nombre, fecha de nacimiento, empresa o ubicación) para generar una puntuación de similitud entre registros.

¿Qué tan rápido es el Data Matching de Datablist?

La herramienta de Data Matching de Datablist carga sus datasets en memoria para analizar coincidencias. Está pensada para datasets de hasta 1 millón de registros y realiza la mayoría de análisis en pocos minutos.

¿Necesito habilidades técnicas para hacer Data Matching?

No. Datablist es una solución no-code para todos: desde analistas de datos hasta equipos de marketing o ventas.

¿Cuándo usar Data Matching?

El data matching tiene aplicaciones en finanzas, salud, marketing y gestión de clientes, donde se requieren datos fiables para tomar decisiones o integrarse con otras herramientas.

Facilita tareas como la detección de fraude, la consolidación de perfiles y el data enrichment desde múltiples fuentes.

¿Qué sigue?

Si le interesa la limpieza de datos, pueden interesarle estas guías: