Ha exportado sus datos desde una aplicación a un archivo CSV y ¿quiere deshacerse de los duplicados? Ha concatenado varios archivos CSV en uno grande y ahora necesita limpiarlo? O quizá tiene varias fuentes de datos que ya no están sincronizadas y quiere unificarlas en un único listado. Microsoft Excel o Google Sheets no le ayudarán porque no permiten definir una restricción de unicidad en una columna.
En un CSV pequeño, esta tarea puede hacerse a mano. En archivos grandes, le llevaría horas revisar fila por fila, con riesgo de errores humanos.
Lo que necesita es una herramienta que detecte automáticamente registros CSV con valores iguales o similares en una o varias columnas. Después, cuando encuentre los duplicados, podrá editarlos o fusionarlos para consolidar sus datos y eliminar los duplicados.
Fusionar duplicados de archivos CSV
Datablist es ideal para realizar operaciones con datos que las hojas de cálculo no permiten. Úselo cuando necesite un excelente online CSV editor.
En esta guía, trabajaremos con 2 archivos CSV que contienen miles de registros. Los cargaremos en una sola colección y deduplicaremos en función de 1 de las 4 columnas. La deduplicación también funciona con un único archivo CSV.
Para descargar los archivos CSV del tutorial: CSV File 1 y CSV File 2
El CSV contiene 4 columnas: First Name
, Last Name
, Email
, Job Title
. Queremos fusionar los registros que comparten el mismo email.
El proceso para fusionar duplicados se resume en:
- Cargue sus archivos CSV en una colección de Datablist
- Seleccione las propiedades para comprobar duplicados
- Fusione automáticamente los duplicados sin conflicto
- Fusione manualmente los duplicados restantes
Paso 1: Cargue sus archivos CSV en una colección de Datablist
Cree una colección nueva
El primer paso es cargar el archivo CSV en Datablist. Abra Datablist (no requiere registro) para empezar.
Para crear una nueva colección, haga clic en el botón "New collection" con el +. Una vez creada, asígnele un nombre y un icono.
Luego, haga clic en el botón Import CSV.
Cree propiedades para su archivo CSV
Con el CSV cargado, puede crear propiedades para su colección usando los nombres de columna del CSV. Datablist lista todas las columnas detectadas para que cree una propiedad por cada una.
Los datos en CSV no tienen tipado. Al leer un CSV, todo es texto. Para ofrecer mejores filtros y ordenación, Datablist intenta detectar tipos de datos analizando las primeras 100 líneas. Por ejemplo, si encuentra solo números, define la propiedad como número. Lo mismo con fechas, emails, casillas (valores true/false), etc.
Revise e importe
En el paso de revisión, las filas del CSV se listan directamente desde el archivo. Asegúrese de que los datos estén bien formateados y sean coherentes. Después, haga clic en el botón "Import items" y ¡listo! 💪
Repita con sus otros archivos CSV
Ahora que su colección tiene las propiedades configuradas, repita el proceso "Import CSV/Excel" para importar sus otros archivos CSV o Excel en la misma colección.
Paso 2: Encuentre duplicados
Tras cargar los CSV, el segundo paso es buscar valores duplicados. En el listado de datos de la colección, haga clic en el botón "Duplicates Finder" en el menú "Clean" (arriba a la derecha).
Hay dos modos disponibles:
- All Properties: en este modo, Datablist busca ítems con valores similares en todas las propiedades. Dos ítems se consideran similares cuando todas sus propiedades coinciden.
- Selected Properties: en este segundo modo, usted selecciona las propiedades para la comprobación de similitud. Dos ítems se consideran similares cuando tienen valores iguales en todas las propiedades seleccionadas.
Aquí, la propiedad email
basta para identificar un contacto, por lo que puede seleccionar el modo Selected Properties con la propiedad email.
Una vez finalizado el análisis, Datablist lista todos los ítems duplicados según la propiedad email
. Para cada ítem con uno o más duplicados, puede:
- Edit the item: use valores de ítems incompletos para fusionar los datos en un único ítem.
- Merge duplicates: fusione valores de ítems secundarios en un ítem principal seleccionado.
- Eliminar los ítems sobrantes: si los duplicados no aportan valor, simplemente elimínelos.
Paso 3: Unir y combinar duplicados automáticamente
Normalmente, querrá fusionar todas las filas duplicadas de su CSV en un solo ítem y consolidar los datos, sin perder información en el proceso.
Datablist incorpora un algoritmo automático para fusionar la mayoría de duplicados sin pérdida de datos. Para las filas restantes, dispone de un asistente de fusión manual.
Deduping big lists lleva tiempo. Datablist Auto Merger procesa sus duplicados en bloque y los fusiona automáticamente cuando es posible.
Hay tres algoritmos disponibles: Merging non-conflicting rows, Combining duplicate values y Dropping conflicting values. Consulte nuestra documentación sobre encontrar duplicados para saber más.
Ejecute primero el algoritmo "Merge non conflicting duplicates" para detectar las propiedades que tienen valores en conflicto.
Fusión de filas sin conflicto
El algoritmo "Merge non-conflicting duplicates" realiza una fusión inteligente. Funciona uniendo registros con valores iguales o complementarios.
Por ejemplo, estos duplicados:
email | First Name | Last Name
james@gmail.com | James
james@gmail.com | | Bond
Se fusionarán en:
email | First Name | Last Name
james@gmail.com | James | Bond
Combinar valores duplicados
Combinar (o consolidar) valores duplicados es perfecto cuando sus duplicados tienen valores en conflicto pero aun así quiere fusionarlos sin perder datos.
Por ejemplo, combinando la propiedad Phone con un semi-colon:
email | Phone | First Name | Last Name
james@gmail.com | +33 1 34 65 23 | James |
james@gmail.com | 06 13 42 78 23 | | Bond
Se fusionará en:
email | Phone | First Name | Last Name
james@gmail.com | +33 1 34 65 23;06 13 42 78 23 | James | Bond
Cualquier propiedad de texto puede combinarse. Los delimitadores disponibles son line break
, semi-colon
, comma
y space
. Puede combinar una o varias propiedades durante la fusión.
Fusionar ítems duplicados y combinar valores es ideal para leads y limpieza de CRM. Fusione sus leads duplicados y combine las propiedades Phone
, Email
, Notes
para tener una lista limpia. Después de exportar su CSV depurado, solo tiene que reimportarlo en su CRM.
Descartar valores en conflicto
Este algoritmo conserva el valor del ítem maestro y elimina otros valores en conflicto para unificar los leads en un único registro.
El ítem con más propiedades con datos se elige como maestro.
Use la opción drop conflicting values para:
- Propiedades técnicas como
Account Id
que requieren un único valor. - Propiedades de tipo "Relation" que no pueden tener múltiples valores. Por ejemplo
Lead owner
,Account
. - Propiedades no textuales que no pueden combinarse. Por ejemplo, fechas como
Last Activity
,Contacted on
, y casillas.
Paso 4: Merging Assistant manual
Cuando queden duplicados tras el Auto Merge, use el Merging Assistant. Para fusionar duplicados, haga clic en el botón "Manual Merging assistant" a la izquierda de cada grupo de duplicados.
Se abrirá una herramienta de fusión. A la derecha verá el "Primary Item" y a la izquierda los duplicados restantes, llamados "Secondary Items". Datablist elige como "Primary Item" el que tiene más datos.
Cuando es posible, los valores de propiedades de los ítems secundarios se seleccionan automáticamente para fusionarse en el ítem principal. Si varios valores entran en conflicto, tendrá que decidir y seleccionar qué valor conservar.
Si el "Primary Item" resultante le convence, haga clic en Merge para confirmar la fusión. Todos los ítems secundarios se eliminarán para conservar un único ítem combinado.
Exportar a CSV si lo necesita
¡Enhorabuena! Ha deduplicado sus archivos CSV correctamente. Si necesita usar el resultado en otra herramienta, haga clic en el botón "Export" para exportar la colección como otro archivo CSV.
FAQ
¿Qué otras manipulaciones de datos permite Datablist?
Los archivos CSV están en todas partes para definir datos estructurados en aplicaciones y conjuntos de datos. Pese a su ubicuidad, manipular CSV es complejo y a menudo exige conocimientos técnicos.
Para tareas simples, una hoja de cálculo basta. Sin embargo, se quedan cortas cuando se trata de:
Si tiene varios archivos CSV que desea unir con una columna única, consulte la guía join CSV files.
¿Puede Datablist manejar archivos CSV grandes?
Datablist gestiona archivos CSV de hasta 1,5 millones de filas. Datablist está diseñado no solo para abrir CSV, sino para editarlos. Para ver archivos más grandes, puede usar soluciones de analítica. Para editar archivos CSV grandes, Datablist sigue siendo de las mejores opciones.
¿Es mejor el algoritmo de deduplicación que el "remove duplicates" de Microsoft Excel y Google Sheets?
Las hojas de cálculo (Microsoft Excel, Google Sheets) tienen una función de deduplicación que elimina filas similares. Para casos de negocio, simplemente borrar filas no es lo ideal.
El algoritmo de deduplicación de Datablist fusiona registros duplicados. Primero con una fusión inteligente, luego combinando valores, y como última opción, fusionando registros eligiendo un registro maestro.
Si tiene alguna duda, por favor contáctenos.