Cómo limpiar y normalizar datos de web scraping online

Si usted crea listas de prospectos a partir de datos obtenidos por scraping, se topará con este problema: ¿Cómo limpio y normalizo mis datos?

Si ha intentado hacerlo con Google Sheets, sabrá que la herramienta no está pensada para esto.

Los datos que llegan de LinkedIn suelen traer un campo "full name", mientras que otras fuentes separan "first name" y "last name". Las direcciones de email pueden tener errores por el proceso de scraping. Las fechas vienen en formatos distintos, etc.

Con esta guía aprenderá a arreglar el 99% de los problemas típicos de datos scrapeados. Y para el 1% restante, contácteme y le ayudo 👨‍💻

Resumen rápido de las operaciones de limpieza que verá en este artículo:

Convertir texto a Datetime, Number, Boolean
Convertir HTML a texto (quitar etiquetas HTML)
Eliminar espacios extra en textos
Normalizar sus datos
Eliminar símbolos de los textos
Dividir nombre completo en Nombre y Apellido
Deduplicar elementos
Validar direcciones de Email
Extraer nombres de personas o empresas de textos scrapeados

Importar desde CSV o pegar datos

Datablist es una herramienta perfecta para limpiar datos. Es un CSV editor online con funciones de limpieza, edición masiva y enriquecimiento. Y escala hasta millones de registros por colección.

Abra Datablist, cree una colección y cargue su archivo CSV con los datos scrapeados.

Para crear una nueva colección, haga clic en el botón + del sidebar. Luego, haga clic en "Import CSV/Excel" para cargar su archivo. También puede usar el acceso directo desde la página de inicio para ir directamente al paso de importación.

Detección automática de formato

El asistente de importación de Datablist detecta automáticamente direcciones de email, Datetimes en ISO 8601, Booleans, Numbers, URLs, etc. cuando están bien formateados.

Si sus datos requieren un análisis más complejo (formatos de fecha distintos, errores tipográficos en URLs o emails), impórtelos como propiedad de tipo Text. En la siguiente sección verá cómo convertir propiedades de texto a Datetime, Boolean o Number.

Convertir texto a datetime, boolean y número

Marie Kondo dice: "La vida realmente empieza cuando pones en orden tu casa". Con sus datos scrapeados pasa lo mismo: "¡Las ventas realmente empiezan cuando pone sus datos en orden!" 😅

Filtrar por una fecha (fecha de creación, de financiación, etc.), un número (precio, número de empleados) o un boolean es mucho más fácil cuando son objetos nativos y no solo texto.

Abra la herramienta "Text to Datetime, Number, Checkbox" desde el menú "Clean".

Convertir cualquier texto a formato Datetime

Datetime tiene un formato internacional llamado ISO 8601 con una estructura definida. Si sus datos usan el formato ISO 8601, durante la importación se creará automáticamente una propiedad Datetime para almacenarlos.

Para valores de Date y Datetime en otros formatos, debe especificar el formato usado para que Datablist pueda convertirlos a valores Datetime estructurados.

Seleccione la propiedad a convertir y elija "Convert to Datetime".

Se listan los formatos comunes (los usados por Google Sheets y Excel) o seleccione "Custom format" para definir su formato.

👉 Visite nuestra documentación para saber más sobre formatos de fecha y hora personalizados.

Crear Checkboxes (Boolean) desde valores de texto

Datablist convierte automáticamente columnas con "Yes, No", "TRUE, FALSE", etc. a propiedades Checkbox al importar. Use el conversor para casos más complejos.

Defina los valores (separados por comas) que se convertirán en Checkbox marcado. Los demás quedarán desmarcados.

Extraer valores numéricos de textos

Use el conversor "Text to number" para:

Normalizar números con separadores de miles y decimales personalizados
Extraer números de textos con letras

👉 Visite nuestra documentación para saber más sobre la conversión a número.

Limpiar datos

Convertir HTML a texto

Las herramientas de scraping analizan código HTML y puede que reciba etiquetas HTML en sus textos.

El HTML tiene enlaces, imágenes y listas con viñetas, y suele venir con párrafos y múltiples líneas.

El objetivo es conservar algo del orden que aporta el HTML pero transformar un código no legible en texto plano.

El conversor de HTML a texto de Datablist mantiene los saltos de línea y transforma las listas con viñetas en listas precedidas por -.

Para transformar sus textos con etiquetas HTML a texto plano, abra la herramienta Bulk Edit en el menú Edit.

Seleccione su propiedad con etiquetas HTML y elija "Convert HTML into plain text".

Eliminar espacios extra

Otro problema común con datos scrapeados son los espacios de más. Aparecen por saltos de línea, por Tab y otros caracteres que representan espacios en HTML.

Datablist incluye una herramienta de limpieza para eliminar espacios innecesarios.

Quita los espacios extra entre palabras
Elimina las líneas vacías
Quita espacios al inicio y al final de cada línea

Para eliminar espacios extra, vaya a la herramienta "Bulk Edit" en el menú "Edit". Seleccione su propiedad y la acción "Remove extra spaces".

Cambiar mayúsculas/minúsculas

Cambiar el uso de mayúsculas/minúsculas es sencillo. Abra la herramienta "Bulk Edit" en el menú "Edit".

Seleccione la propiedad a procesar y use la acción "Change text case".

4 modos disponibles:

Mayúsculas: Todas las letras se convierten a mayúsculas. Ej.: john => JOHN
Minúsculas: Todas las letras se convierten a minúsculas. Ej.: API => api
Capitalizar cada palabra: La primera letra de todas las palabras se pone en mayúscula. Ej.: john is a good man => John Is A Good Man
Capitalizar solo la primera palabra: Solo la primera letra de la primera palabra se pone en mayúscula. Ej.: john is a good man => John is a good man

Eliminar símbolos de textos

Textos extraídos de páginas HTML o con inputs de usuarios (por ejemplo, titulares de perfiles en LinkedIn) pueden contener símbolos: emojis y otros caracteres que afectan el procesamiento de sus datos. Un simple emoji al final de un nombre puede impedir que lo detecte un algoritmo de deduplicación.

Datablist tiene un procesador integrado para eliminar cualquier símbolo no textual de sus datos.

Haga clic en "Bulk Edit" desde el menú "Edit", seleccione una propiedad de texto y elija la transformación "Remove symbols".

Si la vista previa es correcta, ejecute la transformación para procesar sus ítems.

Normalización con Find and Replace

Para crear segmentos en sus listas de prospectos, necesita normalizar sus datos.

Normalizar cargos
Normalizar países, ciudades
Normalizar URL
Etc.

Su objetivo es reducir una propiedad de texto libre a una propiedad con opciones limitadas. O transformar textos en una versión más básica (por ejemplo, URL con rutas a solo el dominio).

Datablist incluye una potente herramienta de Find and Replace. Funciona con texto simple y con expresiones regulares.

Las Expresiones Regulares (RegEx) son complejas pero muy poderosas.

Algunos ejemplos de uso de RegEx para limpiar sus datos:

Quitar parámetros de consulta de una URL

Las URLs scrapeadas traen parámetros de consulta inútiles para tracking o marketing. Quitarlos le dará URLs limpias y ayudará en la deduplicación al usar la URL para encontrar duplicados.

Para eliminarlos, active "Match using regular expression" y use esta expresión regular con un reemplazo vacío:

\?.*$

Regular Expression to remove query parameters

Aplíquelo sobre su propiedad de URL.

Obtener el dominio desde direcciones de email

Otro uso de Find and Replace con expresiones regulares es obtener el dominio del sitio a partir de direcciones de email.

Duplique su propiedad de email para preservar el dato original. Use la siguiente expresión regular con reemplazo vacío:

^(\w)*@

Regular Expression to get domain from email address

👉 Para más información, visite la documentación de Find and Replace.

Dividir nombre completo en Nombre y Apellido

Al hacer scraping de listas de leads, obtendrá contactos con "Full Name" que necesita dividir en "First Name" y "Last Name". Poder descomponer correctamente el nombre de una persona en sus partes es clave.

Separar nombre y apellido sirve para personalizar sus campañas de cold emailing, para inferir el género de su contacto y para extraer el título académico.

Dividir nombres puede ser complicado. Por suerte, Datablist ofrece una herramienta sencilla para dividir "Name" en dos valores usando el espacio como delimitador.

Para empezar, abra la herramienta "Split Property" en el menú "Edit".

Después, seleccione la propiedad con los nombres a analizar. Elija Space como delimitador y defina el número máximo de partes en 2.

Ejecute la vista previa. Datablist analizará los primeros 10 ítems para generar un resultado preliminar. Si es correcto, haga clic en "Split Property" para ejecutar el algoritmo en todos los ítems actuales.

Al finalizar, renombre las dos propiedades creadas como "First Name" y "Last Name".

Este ejemplo se centra en nombres con el formato occidental (nombre + apellido). Puede ser más complejo con nombres no occidentales, con varios nombres de pila o apellidos, o cuando incluyen títulos o sufijos.

Deduplicación de datos

Datablist cuenta con un potente algoritmo para dedupear registros. Encuentra elementos similares usando una o varias propiedades y tiene un algoritmo automático para fusionarlos sin perder información.

Para ejecutarlo, haga clic en "Duplicate Finder" en el menú "Clean".

Seleccione las propiedades a usar para el matching.

En la página de resultados, ejecute el algoritmo "Auto Merge" una vez con la opción "Merge non-conflicting duplicates". Esto fusionará duplicados fáciles de resolver y listará las propiedades con conflictos.

El algoritmo de dedupe tiene dos opciones para tratar datos conflictivos. Puede "Combine conflicting properties" usando un delimitador, o descartar los valores en conflicto para conservar un único ítem maestro.

👉 Visite nuestra guía para fusionar duplicados en archivos CSV.

Validar direcciones de Email

Los datos obtenidos por scraping pueden ser antiguos, contener errores tipográficos o ser inválidos. Esto es especialmente cierto con las direcciones de email.

Cuando el dato es generado por usuarios, es frecuente encontrar emails falsos o de proveedores desechables.

Datablist incluye un validador de emails que le permite verificar miles de direcciones.

El servicio de validación realiza:

Análisis de sintaxis del email: Primero comprueba que el email cumpla el estándar IETF y hace un análisis sintáctico completo. Detecta direcciones sin @, con dominios inválidos, etc.
Detección de proveedores desechables: Identifica emails temporales. Busca dominios de proveedores de Disposable Email Address (DEA) como Mailinator, Temp-Mail, YopMail, etc.
Verificación de registros MX del dominio: Un email válido debe pertenecer a un dominio con registros MX configurados. Esos registros indican el servidor que acepta emails para el dominio. Si faltan, el email es inválido. Para cada dominio, el servicio revisa los DNS y busca los MX. Si el dominio no existe o no tiene MX válidos, el email se marca como inválido.
Segmentación entre emails corporativos y personales: Si viene de un lead magnet o quiere segmentar su base de usuarios, puede separar contactos entre emails corporativos y personales. El validador le da esta información para enriquecer sus contactos.

👉 Vea nuestra guía para limpiar una lista de correos.

Extraer nombres de personas o empresas

Al extraer texto de sitios web u otras fuentes, a menudo es útil poder identificar nombres de personas o empresas. Esta información sirve para múltiples fines, como generación de leads o análisis de competidores. Sin embargo, extraer nombres de textos no estructurados es un reto: los nombres adoptan formas variadas y pueden estar incrustados en bloques largos de texto.

Uno de los grandes desafíos es la variedad de convenciones de nombres entre culturas e idiomas. Algunas culturas colocan el apellido antes del nombre de pila; otras, al revés. Hay personas con varios nombres de pila o sin ellos. Además, puede haber errores ortográficos, abreviaturas o formatos no estándar, lo que dificulta identificarlos con reglas simples.

Un enfoque común es usar Named Entity Recognition (NER), una técnica de procesamiento de lenguaje natural que identifica y clasifica entidades con nombre en un texto. Los modelos NER se pueden entrenar para reconocer personas, organizaciones, ubicaciones, etc., y adaptarse a convenciones y variaciones distintas.

Datablist incluye un potente modelo de "Named Entity Recognition" (NER) que puede ejecutar directamente sobre sus textos. Está entrenado en árabe, alemán, inglés, español, francés, italiano, letón, neerlandés, portugués y chino.

Seleccione "Entity name extraction" desde el menú "Enrichments".

Luego, en la entrada, seleccione la propiedad con el texto del que extraer los nombres.

En las salidas, haga clic en el botón "Create a new property" para cada tipo de nombre que desee extraer.

El extractor de nombres de Datablist busca:

Nombre de organización: Por ejemplo, empresas.
Nombre de persona: Nombre completo o Nombre/Apellido
Ubicación: Ciudad, país y lugares

Después, ejecute el enrichment.

¿Necesita ayuda con la limpieza de datos?

Siempre estoy buscando feedback y casos reales de limpieza de datos para resolver. Por favor, contácteme y comparta su caso de uso.