La limpieza de datos (data cleansing) ya no es exclusiva de los analistas. Si usted trabaja con una lista de prospects, usa datos scrapeados en sus procesos o consolida múltiples fuentes, conoce la importancia de un data cleaning eficaz.

Google Sheets y Excel bastan para operaciones sencillas, pero se quedan cortos al consolidar y deduplicar.

En esta guía, aprenderá a usar Datablist, una herramienta online gratuita para limpiar y normalizar sus datos.

Aquí tiene un resumen rápido de las operaciones de limpieza que verá en este artículo:

Importar desde CSV o copiar y pegar datos

Datablist es una herramienta perfecta para limpiar datos. Es un editor CSV online con funciones de limpieza, edición masiva y enrichments. Y escala hasta millones de items por colección.

Abra Datablist y cargue sus colecciones con fuentes de datos.

Para crear una nueva colección, haga clic en el botón + en la barra lateral. Luego haga clic en "Import CSV/Excel" para cargar su archivo. O use el acceso directo desde la página de inicio para ir directamente al paso de importación de archivos.

Create a collection
Create a collection

Detección automática del formato

El asistente de importación de Datablist detecta automáticamente direcciones de email, Datetimes en ISO 8601, Booleans, Numbers, URLs, etc. cuando están bien formateados.

Type auto detection
Type auto detection

Si sus datos requieren un análisis más complejo (formatos de fecha/hora distintos, errores tipográficos en URLs o emails), impórtelos como propiedad de tipo Text. En la siguiente sección le muestro cómo convertir propiedades de texto a Datetime, Boolean o Number.

Select data type
Select data type

Convertir texto a fecha/hora, booleano y número

Marie Kondo dice: «La vida comienza realmente cuando pone su casa en orden». Con sus datos pasa igual: «¡Las ventas empiezan de verdad cuando tiene sus datos en orden!» 😅

Filtrar por una fecha (fecha de creación, de ronda de inversión, etc.), un número (precio, número de empleados) o un booleano es mucho más fácil cuando son objetos nativos y no solo texto.

Abra la herramienta "Text to Datetime, Number, Checkbox" desde el menú "Clean".

Convert Text to data types
Convert Text to data types

Convertir texto a formato fecha/hora

Datetime tiene un formato internacional llamado ISO 8601 con una estructura definida. Si sus datos usan formato ISO 8601, durante la importación se creará automáticamente una propiedad de tipo Datetime para almacenarlos.

Para valores de Date y Datetime en otros formatos, debe indicar el formato utilizado para que Datablist pueda convertirlos a valores estructurados de tipo Datetime.

Seleccione la propiedad a convertir y elija "Convert to Datetime".

Convert Text to Datetime
Convert Text to Datetime

Se listan formatos comunes (los usados por Google Sheets y Excel) o seleccione "Custom format" para definir su propio formato de fecha/hora.

Custom Datetime format
Custom Datetime format
Datetime conversion preview
Datetime conversion preview

Si tiene fechas y/o datetimes en varios formatos dentro de una sola propiedad, seleccione "Custom or multiple formats" en "Datetime Conversion Format". Luego, introduzca un formato por línea. Datablist probará cada formato empezando por la primera línea hasta devolver una Date válida.

👉 Visite nuestra documentación para saber más sobre formatos de fecha personalizados.

Crear Checkboxes (booleanos) desde texto

Datablist convierte automáticamente columnas con valores como "Yes, No", "TRUE, FALSE", etc., en propiedades de tipo Checkbox al importar. Use el conversor para casos más complejos.

Defina los valores (separados por comas) que se convertirán en un checkbox marcado. Los demás valores quedarán desmarcados.

Checkbox conversion
Checkbox conversion
Checkbox conversion preview
Checkbox conversion preview

Extraer números de textos

Use el conversor "Text to number" para:

  • Normalizar números con separadores de decimales y miles personalizados
  • Extraer números de textos con letras
Number conversion
Number conversion
Number conversion preview
Number conversion preview

👉 Visite nuestra documentación para aprender más sobre la conversión de números.

Limpiar datos

Convertir HTML a texto

Las herramientas de scraping analizan código HTML y es habitual que aparezcan etiquetas HTML en sus textos.

El HTML incluye enlaces, imágenes y listas con viñetas, y está escrito con párrafos y múltiples líneas.

El objetivo es conservar parte del orden que aporta el HTML pero transformar ese código ilegible en texto plano.

El conversor de HTML a texto de Datablist mantiene los saltos de línea y transforma las viñetas en listas con el prefijo -.

Para convertir su texto con etiquetas HTML en texto plano, abra la herramienta Bulk Edit en el menú Edit.

Bulk Edit Tool
Bulk Edit Tool

Seleccione su propiedad con etiquetas HTML y elija "Convert HTML into plain text".

Bukl Edit Convert HTML
Bukl Edit Convert HTML
HTML to Text conversion
HTML to Text conversion
HTML to Text Results
HTML to Text Results

Eliminar espacios extra

Otro problema común con datos desordenados son los espacios de más. Los espacios provienen de saltos de línea, de Tab y de otros caracteres que representan espacios en HTML.

Datablist incluye una herramienta de limpieza para eliminar espacios extra.

Tiene dos modos:

  • Modo 1: Eliminar todos los espacios. Este modo quita cualquier carácter de espacio. Es ideal para limpiar teléfonos, precios, etc., donde solo necesita letras, dígitos, etc.
  • Modo 2: Eliminar solo "espacios extra".

Para el segundo modo, el algoritmo funciona así:

  • Elimina espacios duplicados entre palabras
  • Elimina líneas vacías
  • Elimina espacios al inicio y al final de cada línea

Para quitar espacios extra, vaya a la herramienta "Bulk Edit" del menú "Edit". Seleccione su propiedad y la acción "Remove extra spaces".

Marque la opción "Remove all spaces" para eliminar todos los espacios. Déjela desactivada para quitar solo los "espacios extra".

Remove Extra Space Configuration
Remove Extra Space Configuration

Aquí tiene un ejemplo con el algoritmo eliminando espacios extra:

Remove Extra Space
Remove Extra Space

Tras la limpieza, sin los espacios extra:

Remove Extra Space Results
Remove Extra Space Results

Cambiar las mayúsculas/minúsculas

Cambiar el case del texto es sencillo. Abra la herramienta "Bulk Edit" en el menú "Edit".

Seleccione la propiedad a procesar y use la acción "Change text case".

Change Text Case
Change Text Case

Hay 4 modos disponibles:

  • Uppercase: Todas las letras se convierten en mayúsculas. Ej.: john => JOHN
  • Lowercase: Todas las letras se convierten en minúsculas. Ej.: API => api
  • Capitalize: La primera letra de cada palabra va en mayúscula. Ej.: john is a good man => John Is A Good Man
  • Capitalize only the first word: Solo la primera letra de la primera palabra va en mayúscula. Ej.: john is a good man => John is a good man

Eliminar símbolos de los textos

Textos extraídos de páginas HTML o con inputs de usuarios (por ejemplo, títulos de perfil de LinkedIn) pueden contener símbolos: emojis y otros caracteres que dificultan el procesamiento de datos. Un simple emoji al final de un nombre puede impedir que un algoritmo de deduplicación lo detecte.

Datablist incorpora un procesador para eliminar cualquier símbolo no textual de sus datos.

Haga clic en "Bulk Edit" desde el menú "Edit", seleccione una propiedad de texto y elija la transformación "Remove symbols".

Remove symbols
Remove symbols

Si la vista previa es correcta, ejecute la transformación para procesar sus items.

Remove symbols results
Remove symbols results

Normalizar con Find and Replace

Para crear segmentos en sus listas de prospects, necesita normalizar sus datos.

  • Normalizar job titles
  • Normalizar países y ciudades
  • Normalizar URL
  • Etc.

Su objetivo es reducir una propiedad con texto libre a una con opciones limitadas. O transformar textos en una versión más básica (por ejemplo, una URL con path a un simple dominio).

Datablist incluye una potente herramienta de Find and Replace. Funciona con texto simple y con expresiones regulares.

Las Regular Expressions son complejas, pero muy poderosas.

Aquí tiene algunos ejemplos de uso de RegEx para limpiar datos.

Quitar parámetros de consulta en una URL

Las URLs scrapeadas suelen tener parámetros de tracking o marketing que no sirven. Quitarlos le dará URLs limpias y ayudará a deduplicar al usar la URL para encontrar duplicados.

Para eliminar los query parameters de sus URLs, active la opción "Match using regular expression". Use la siguiente expresión regular con un texto de reemplazo vacío:

\?.*$
Regular Expression to remove query parameters
Regular Expression to remove query parameters

Y aplíquelo a su propiedad de URL.

Preview without query params
Preview without query params

Obtener dominio desde direcciones de email

Otro uso de Find and Replace con expresiones regulares es extraer el dominio de un email.

Duplique su propiedad de email para preservar los datos originales. Use la siguiente expresión regular con un reemplazo vacío:

^(\w)*@
Regular Expression to get domain from email address
Regular Expression to get domain from email address
Domains from email addresses preview
Domains from email addresses preview

👉 Para saber más, visite la documentación de Find and Replace.

Separar nombre completo en First Name y Last Name

Al hacer scraping de listas de leads, suele obtener el "Full Name" y luego necesita separarlo en "First Name" y "Last Name". Poder dividir el nombre con precisión es un paso clave.

Separar nombre y apellido es útil para personalizar sus campañas de Cold Emailing, encontrar el género del contacto y recuperar el título académico.

Dividir nombres puede ser complejo. Por suerte, Datablist ofrece una herramienta sencilla para separar "Name" en dos valores usando el espacio como delimitador.

Para empezar, abra la herramienta "Split Property" en el menú "Edit".

Split Property tool
Split Property tool

Luego, seleccione la propiedad con los nombres a analizar. Elija Space como delimitador y defina el número máximo de partes en 2.

Configure Split Property
Configure Split Property

Ejecute la vista previa. Datablist analizará sus primeros 10 items para generar el preview. Si el resultado es correcto, haga clic en "Split Property" para ejecutar el algoritmo en todos los items actuales.

Run preview
Run preview

Tras la división, renombre las dos propiedades creadas como "First Name" y "Last Name".

First Name and Last Name results
First Name and Last Name results

Este ejemplo se centra en el formato occidental, que suele incluir nombre y apellido. Puede complicarse con nombres no occidentales, con múltiples nombres o apellidos, o cuando incluyen títulos o sufijos.

Deduplicación de datos

Datablist tiene un potente algoritmo para dedupe records. Encuentra items similares usando una o varias propiedades y cuenta con un algoritmo automático para fusionarlos sin perder datos.

Para ejecutar la deduplicación, haga clic en "Duplicate Finder" en el menú "Clean".

Run Duplicate Finder
Run Duplicate Finder

Seleccione las propiedades que se usarán para el matching.

En la página de resultados, ejecute el algoritmo "Auto Merge" una vez, solo con la opción "Merge non-conflicting duplicates". Esto fusionará los duplicados que se puedan unir fácilmente y listará las propiedades con conflictos.

El algoritmo de dedupe ofrece dos opciones para tratar datos en conflicto. Puede "Combine conflicting properties" usando un delimitador, o descartar los valores en conflicto para mantener un único master item.

Automatic Merging
Automatic Merging

👉 Visite nuestra guía para fusionar duplicados en archivos CSV y nuestra guía para encontrar y fusionar duplicados usando nombres de empresa.

Extraer emails, URLs, etc. de textos

Datablist Data Extractor es una herramienta para analizar textos no estructurados y extraer entidades.

Usa reconocimiento de patrones para detectar:

  • Direcciones de email en un texto
  • URLs en un texto
  • Dominio desde URLs
  • Dominio desde emails
  • Menciones (p. ej., @name) en un texto
  • Tags (p. ej., #tag) en un texto

Data Extractor es perfecto para el análisis y la estructuración de datos. Con emails, URLs, etc. bien formateados, podrá conectar sus datos con otras herramientas y crear flujos automatizados.

Por ejemplo, una vez que obtenga emails, podrá enriquecerlos para encontrar información de contacto. O, usando el dominio de las URLs, puede consultar su ranking de tráfico con, por ejemplo, Similarweb.

Datablist Data Extractor está disponible desde el menú "Edit -> Extract url, email, tag, etc.".

Data Extractor
Data Extractor

Seleccione la propiedad con texto no estructurado y elija un parser.

Data Extractor Parsers
Data Extractor Parsers

Ejecute el parser para ver una vista previa. Si es correcta, haga clic en "Extract" para procesar sus items.

Data Extractor Preview
Data Extractor Preview

Usar RegEx para filtrar y validar datos

Datablist le permite usar Regular Expression para filtrar datos.

Filtrar textos por número de palabras

Con esta expresión regular, puede filtrar textos con al menos {n} palabras:

(?:\w+(?:\s|$)){5,} (reemplace el 5 por cualquier número)

Otras variantes:

  • (?:\w+(?:\s|$)){,5}: Textos con menos de 5 palabras (incluye 5)
  • (?:\w+(?:\s|$)){5,10}: Textos con entre 5 y 10 palabras
Filter texts with mininum 5 words
Filter texts with mininum 5 words
Results filtering mininum 5 words
Results filtering mininum 5 words

Filtrar URLs no válidas

La siguiente RegEx detecta URLs no válidas:

^(?!(?:http(s)?:\/\/)?[\w.-]+(?:\.[\w\.-]+)+[\w\-\._~:\/?#[\]@!\$&'\(\)\*\+,;=.]+).*$

Filter Invalid URLs
Filter Invalid URLs
Results filtering invalid URLs
Results filtering invalid URLs

Filtrar emails no válidos

La siguiente RegEx detecta direcciones de email no válidas:

^(?!([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})).*$

Filter Invalid Emails
Filter Invalid Emails
Results filtering Invalid Emails
Results filtering Invalid Emails

Crear transformaciones personalizadas con JavaScript

Datablist le permite ejecutar código JavaScript personalizado sobre sus datos. Con esta capacidad, podrá resolver retos únicos, manejar formatos especializados, realizar cálculos complejos y aplicar transformaciones avanzadas.

Esta potente función le permite desplegar toda su creatividad y experiencia en manipulación de datos. Tiene flexibilidad para aplicar lógica a medida, crear bucles, condiciones y usar un amplio abanico de funciones de JavaScript para abordar incluso las tareas de limpieza más complejas.

Abra el editor JavaScript haciendo clic en "Run JavaScript" desde el menú "Edit".

Data cleaning with JavaScript code
Data cleaning with JavaScript code

👉 Visite nuestra documentación para saber cómo escribir código JavaScript.

Validar direcciones de email

Los datos obtenidos por scraping pueden ser antiguos, contener typos o ser inválidos. Esto es especialmente cierto con las direcciones de email que vienen del scraping.

Cuando los datos son generados por usuarios, encontrará emails falsos en su base. O direcciones de proveedores desechables.

Datablist tiene una herramienta de validación de email integrada que le permite verificar miles de direcciones.

Click on "Enrich"
Click on "Enrich"

El servicio de verificación ofrece:

  • Análisis de sintaxis del email: El primer control asegura que el email cumple el estándar IETF y realiza un análisis sintáctico completo. Esto detecta direcciones sin arroba (@), con dominios inválidos, etc.
  • Detección de proveedores desechables: El segundo control identifica emails temporales. Busca dominios de proveedores de Disposable Email Address (DEA) como Mailinator, Temp-Mail, YopMail, etc.
  • Verificación de registros MX del dominio: Un email válido debe tener un dominio con registros MX configurados. Esos registros MX indican el servidor que acepta los mensajes para el dominio. Si faltan, la dirección es inválida. Para cada dominio, el servicio consulta los registros DNS y busca los MX. Si el dominio no existe, el email se marca como inválido. Si existe pero sin MX válido, también se marca como inválido.
  • Segmentación entre Business y Personal Email: Con prospects de lead magnets o para segmentar su base de usuarios, quizá quiera separar emails corporativos de personales. El servicio entrega esta información para enriquecer sus contactos.
Email verification results
Email verification results

👉 Visite nuestra guía para limpiar una lista de emails.

FAQ

¿Qué es la limpieza de datos y por qué es importante?

La limpieza de datos, también llamada data cleansing o data scrubbing, es el proceso de identificar y corregir o eliminar errores, incoherencias e inexactitudes en un dataset. Incluye detectar y resolver problemas como valores faltantes, registros duplicados, errores de formato, outliers e inconsistencias en la representación de datos.

Es un paso crucial en el procesamiento de datos, ya que garantiza que la información sea precisa, confiable y adecuada para el análisis o su uso en distintas aplicaciones.

¿Qué otras herramientas gratuitas hay para Data Cleaning?

El panorama de data cleaning abarca desde herramientas genéricas como las hojas de cálculo hasta aplicaciones especializadas. Aquí tiene algunas alternativas gratuitas, además de Datablist, para sus tareas de limpieza.

OpenRefine

OpenRefine (antes Google Refine) es una herramienta open‑source centrada en explorar, limpiar y transformar datos desordenados e inconsistentes.

OpenRefine es una app de escritorio compatible con archivos tabulares (CSV, TSV), Microsoft Excel y otros formatos estructurados como JSON y XML.

OpenRefine es muy útil para tratar CSV inválidos:

  • Gestiona muy bien problemas de encoding
  • Ofrece opciones para resolver errores de formato CSV

En sus puntos débiles, OpenRefine tiene una curva de aprendizaje pronunciada y carece de algunas funciones orientadas al negocio. No incluye deduplicación ni flujos sencillos para unir un dataset con otra lista para actualizar o consolidar datos. Tampoco ofrece funciones de colaboración ni enrichments e integraciones de negocio.

Microsoft Excel y Google Sheets

Microsoft Excel y Google Sheets son potentes hojas de cálculo que pueden usarse para limpiar y preparar datos. Aunque tienen diferencias, ambas incluyen funciones útiles para transformar y depurar información.

Puede usar fórmulas para transformar y manipular datos. Y con formato condicional, resaltar valores inválidos que requieran revisión manual.

¿Necesita ayuda con su limpieza de datos?

Siempre busco feedback y casos reales de data cleaning para resolver. Por favor, contácteme y comparta su caso de uso.