Data Cleaning (auch „Data Cleansing“) ist längst nicht mehr nur ein Thema für Data Analysts. Wenn Du mit einer Prospect-Liste arbeitest, Scraped Data in Deinen Prozessen nutzt oder mehrere Datenquellen zusammenführst, kennst Du den Unterschied, den sauberes Datenmaterial macht.
Google Sheets und Excel reichen für einfache Aufgaben – stoßen aber schnell an Grenzen, wenn es um Konsolidierung und Deduplication geht.
In diesem Guide zeige ich Dir, wie Du Datablist nutzt – ein kostenloses Online-Tool, um Deine Daten zu bereinigen und zu normalisieren.
Hier ist eine schnelle Übersicht über die Clean-up-Operationen, die wir in diesem Artikel durchgehen:
- Text in Datetime, Number, Boolean umwandeln
- HTML in Text umwandeln (HTML-Tags entfernen)
- Überflüssige Leerzeichen aus Texten entfernen
- Daten normalisieren
- Symbole aus Texten entfernen
- Vollen Namen in First Name und Last Name aufteilen
- Datensätze deduplizieren
- Email-Adressen, URLs usw. aus Texten extrahieren
- Regular Expressions zum Filtern und Validieren nutzen
- Eigene Transformationen mit JavaScript schreiben
- Email-Adressen validieren
Import aus CSV oder per Copy-Paste
Datablist ist perfekt für Data Cleaning. Es ist ein online CSV editor mit Cleaning-, Bulk-Editing- und Enrichment-Features. Und Du kannst damit Collections mit Millionen von Items bearbeiten.
Öffne Datablist und lade Deine Datenquellen/Collections.
Um eine neue Collection zu erstellen, klicke in der Sidebar auf den +-Button. Danach „Import CSV/Excel“, um Deine Datei zu laden. Alternativ kannst Du über den Shortcut auf der Getting-started-Seite direkt zum Import springen.
Format automatisch erkennen
Der Datablist-Import-Assistent erkennt automatisch Email-Adressen, Datetimes in ISO 8601, Booleans, Numbers, URLs usw. – wenn sie sauber formatiert sind.
Wenn Deine Daten eine komplexere Analyse brauchen (anderes Datetime-Format, Tippfehler in URL oder Email-Adresse), importiere sie als Text-Property. Im nächsten Abschnitt zeige ich Dir, wie Du Text-Properties in Datetime, Boolean oder Number umwandelst.
Text in Datetime, Boolean oder Number umwandeln
Marie Kondo sagt: „Life truly begins after you have put your house in order“. Gilt genauso für Deine Daten: „Sales truly begins after you have put your data in order“! 😅
Nach einem Datum (Created Date, Funding Date usw.), einer Zahl (Preis, Mitarbeiterzahl) oder einem Boolean zu filtern ist einfach viel angenehmer, wenn das echte Datentypen sind – und nicht nur Text.
Öffne das Tool „Text to Datetime, Number, Checkbox“ im Menü „Clean“.
Beliebigen Text in ein Datetime-Format konvertieren
Datetime hat ein internationales Format namens ISO 8601 mit klarer Struktur. Wenn Deine Daten ISO 8601 nutzen, wird beim Import automatisch eine Datetime-Property erstellt.
Für Date- und Datetime-Werte in anderen Formaten musst Du das verwendete Format angeben, damit Datablist es in strukturierte Datetime-Werte umwandeln kann.
Wähle die Property aus und klicke auf „Convert to Datetime“.
Gängige Formate sind aufgelistet (z. B. Datetime-Formate aus Google Sheets und Excel). Oder Du wählst „Custom format“, um Dein eigenes Format zu definieren.
Wenn Du in einer einzigen Property mehrere Datums-/Datetime-Formate hast, wähle in „Datetime Conversion Format“ die Option „Custom or multiple formats“. Dann gibst Du ein Format pro Zeile ein. Datablist probiert die Formate der Reihe nach aus, bis ein gültiges Datum herauskommt.
👉 Schau in unsere Doku, um mehr über Custom Datetime Formats zu lernen.
Checkboxes (Boolean) aus Textwerten erstellen
Datablist konvertiert beim Import Spalten mit „Yes, No“, „TRUE, FALSE“ usw. automatisch in Checkbox-Properties. Für komplexere Fälle nutzt Du den Converter.
Definiere die Werte (mit Kommas getrennt), die zu checked werden sollen. Alle anderen Werte bleiben unchecked.
Zahlenwerte aus Texten extrahieren
Nutze den Converter „Text to number“, um:
- Zahlen mit eigenen Dezimal- und Tausendertrennzeichen zu normalisieren
- Zahlen aus Texten mit Buchstaben zu extrahieren
👉 Schau in unsere Doku, um mehr über Number Conversion zu lernen.
Daten bereinigen
HTML in Text umwandeln
Scraping-Tools parsen HTML – dadurch landen oft HTML-Tags in Deinen Texten.
HTML kann Links, Bilder und Listen enthalten. Außerdem hat es Absätze und Zeilenumbrüche.
Ziel ist es, einen Teil dieser Struktur zu behalten, aber den nicht lesbaren Code in Klartext zu verwandeln.
Der Datablist-Converter „HTML to Text“ behält Newlines bei und wandelt Bullet Points in Listen um, die mit - beginnen.
Um Text mit HTML-Tags in Plaintext umzuwandeln, öffne das Tool Bulk Edit im Menü Edit.
Wähle die Property mit den HTML-Tags und dann „Convert HTML into plain text“.
Überflüssige Leerzeichen entfernen
Ein weiterer Klassiker bei messy data: zu viele Leerzeichen. Die kommen z. B. aus Zeilenumbrüchen, aus Tab oder aus HTML-Zeichen, die ein Leerzeichen darstellen.
Datablist hat dafür ein eigenes Cleaning-Tool.
Es gibt zwei Modi:
- Mode 1: Remove all spaces – entfernt wirklich alle Space-Zeichen. Ideal für Phone Numbers, Preise usw., wenn nur Buchstaben/Ziffern übrig bleiben sollen.
- Mode 2: Remove only „extra spaces“.
Beim zweiten Modus funktioniert der Algorithmus so:
- Er entfernt doppelte/mehrfache Leerzeichen zwischen Wörtern
- Er entfernt leere Zeilen
- Er entfernt führende und nachgestellte Leerzeichen pro Zeile
Um extra spaces zu entfernen, öffne „Bulk Edit“ im Menü „Edit“. Wähle Deine Property und dann die Aktion „Remove extra spaces“.
Aktiviere „Remove all spaces“, um alle Leerzeichen zu entfernen. Lass es aus, um nur „extra spaces“ zu löschen.
Beispiel: so sieht es mit extra spaces aus:
Nach dem Cleaning, ohne die extra spaces:
Groß-/Kleinschreibung bereinigen
Die Text-Case zu ändern ist easy: Öffne „Bulk Edit“ im Menü „Edit“.
Wähle die Property und nutze die Aktion „Change text case“.
Es gibt 4 Modi:
- Uppercase – alles wird in Großbuchstaben umgewandelt. Beispiel:
john=>JOHN - Lowercase – alles wird in Kleinbuchstaben umgewandelt. Beispiel:
API=>api - Capitalize – erster Buchstabe jedes Wortes wird groß. Beispiel:
john is a good man=>John Is A Good Man - Capitalize only the first word – nur der erste Buchstabe des ersten Wortes wird groß. Beispiel:
john is a good man=>John is a good man
Symbole aus Texten entfernen
Texte, die aus HTML gescraped wurden oder aus User Inputs stammen (z. B. LinkedIn-Profil-Titles), enthalten oft Symbole: Smileys und andere Sonderzeichen, die Deine Datenverarbeitung stören. Ein Smiley am Ende eines Namens kann z. B. verhindern, dass er von einem deduplication algorithm erkannt wird.
Datablist hat dafür einen integrierten Processor, der Nicht-Text-Symbole aus Deinen Daten entfernt.
Klicke auf „Bulk Edit“ im Menü „Edit“, wähle eine Text-Property und dann die Transformation „Remove symbols“.
Wenn die Preview passt, starte die Transformation für alle Items.
Normalisierung mit Suchen und Ersetzen
Wenn Du Segmente auf Deinen prospect lists bauen willst, brauchst Du normalisierte Daten.
- Job Titles normalisieren
- Länder und Städte normalisieren
- URLs normalisieren
- usw.
Das Ziel: Aus freiem Text machst Du eine Property mit wenigen, klaren Optionen. Oder Du vereinfachst Texte (z. B. URLs mit Pfad) auf eine Basis-Version (z. B. nur die Domain).
Datablist hat ein starkes Find and Replace Tool – sowohl für normalen Text als auch für Regular Expressions.
Regular Expressions sind nicht ohne, aber extrem mächtig.
Hier sind ein paar Beispiele, wie Du RegEx fürs Data Cleaning einsetzen kannst.
Query-Parameter aus einer URL entfernen
Gescrapte URLs enthalten oft unnötige Query-Parameter für Tracking oder Marketing. Wenn Du sie entfernst, bekommst Du saubere URLs – und es hilft bei Deduplication, weil Du die URL nutzen kannst, um duplicate items zu finden.
Aktiviere dazu „Match using regular expression“ und nutze folgende RegEx mit leerem Replacement:
\?.*$
Und wende es auf Deine URL-Property an.
Domain aus Email-Adressen extrahieren
Ein weiterer Use Case für Find and Replace mit RegEx: Website-Domains aus Email-Adressen ziehen.
Dupliziere Deine Email-Property, damit Du die Originaldaten behältst. Nutze dann diese RegEx mit leerem Replacement:
^(\w)*@
Voller Name in First Name und Last Name aufteilen
Wenn Du Lead-Listen scrapest, bekommst Du Kontakte oft als „Full Name“ – den Du dann in „First Name“ und „Last Name“ splitten musst. Namen zuverlässig in Bestandteile zu zerlegen ist ein wichtiger Schritt.
Das Trennen von Vor- und Nachnamen hilft Dir, Personen in Cold Emailing Kampagnen persönlicher anzusprechen, das Gender besser abzuleiten und akademische Titel zu erkennen.
Names zu splitten kann tricky sein. Zum Glück bietet Datablist ein einfaches Tool, um „Name“ anhand von Leerzeichen in zwei Werte aufzuteilen.
Öffne dafür das Tool „Split Property“ im Menü „Edit“.
Wähle dann die Property mit den Namen aus. Setze Space als Delimiter und stelle die maximale Anzahl Parts auf 2.
Starte die Preview. Datablist parsed die ersten 10 Items und zeigt Dir ein Preview. Wenn das Ergebnis passt, klicke auf „Split Property“, um es auf alle aktuellen Items anzuwenden.
Nach dem Split benennst Du die beiden neuen Properties in „First Name“ und „Last Name“ um.
Dieses Beispiel fokussiert die westliche Namenskonvention (typisch: First Name + Last Name). Es wird komplexer bei nicht-westlichen Namen – etwa mit mehreren Vornamen oder Nachnamen – oder wenn Titel/Suffixe enthalten sind.
Daten deduplizieren
Datablist hat einen leistungsstarken Deduplication-Algorithmus, um records zu dedupen. Er findet ähnliche Items über eine oder mehrere Properties und kann sie automatisch mergen, ohne Daten zu verlieren.
Um Deduplication zu starten, klicke im Menü „Clean“ auf „Duplicate Finder“.
Wähle die Properties aus, die fürs Matching verwendet werden sollen.
Auf der Results-Seite startest Du „Auto Merge“ zuerst einmal nur mit der Option „Merge non-conflicting duplicates“. Damit werden die Duplikate gemerged, die sich sauber zusammenführen lassen – und Datablist listet Dir die Properties mit Konflikten.
Der dedupe algorithm hat zwei Optionen für Konflikte: Du kannst „Combine conflicting properties“ mit einem Delimiter verwenden – oder widersprüchliche Werte droppen, sodass nur ein Master Item bleibt.
👉 Hier ist unser Guide, wie Du Duplicates in CSV-Dateien mergst. Und unser Guide, um Duplicates über Company Names zu finden und zu mergen.
Email-Adressen, URLs usw. aus Texten extrahieren
Der Datablist Data Extractor hilft Dir, unstrukturierte Texte zu parsen und Entities zu extrahieren.
Er nutzt Pattern Recognition und erkennt:
- Email addresses aus einem Text
- URLs aus einem Text
- Domain aus URLs
- Domain aus Email addresses
- Mentions (z. B. @name) aus einem Text
- Tags (z. B. #tag) aus einem Text
Der Data Extractor ist ideal für Data Analysis und um Deine Daten zu strukturieren. Mit sauber formatierten Email addresses, URLs usw. kannst Du Deine Daten besser mit anderen Tools verbinden und Automations bauen.
Beispiel: Sobald Du Email addresses hast, kannst Du sie enrichen, um Contact Information zu finden. Oder Du nutzt die Domain aus URLs, um z. B. ein Traffic-Ranking zu ziehen (früher häufig über Alexa – heute eher über Alternativen wie Similarweb oder Tranco, je nach Use Case).
Den Datablist Data Extractor findest Du unter „Edit Menu -> Extract url, email, tag, etc.“.
Wähle die Property mit unstrukturiertem Text aus und picke einen Parser.
Starte den Parser für ein Preview. Wenn die Preview passt, klicke auf „Extract“, um alle Items zu verarbeiten.
Regular Expressions zum Filtern und Validieren nutzen
Datablist lässt Dich Regular Expression nutzen, um Deine Daten zu filtern.
Text-Filter basierend auf der Wortanzahl
Mit dieser Regular Expression filterst Du Texte mit mindestens {n} Wörtern:
(?:\w+(?:\s|$)){5,} (ersetze die 5 durch eine beliebige Zahl)
Weitere Varianten:
(?:\w+(?:\s|$)){,5}: Texte mit weniger als 5 Wörtern (inkl. Texte mit genau 5 Wörtern)(?:\w+(?:\s|$)){5,10}: Texte mit 5 bis 10 Wörtern
Ungültige URLs filtern
Diese RegEx matcht ungültige URLs:
^(?!(?:http(s)?:\/\/)?[\w.-]+(?:\.[\w\.-]+)+[\w\-\._~:/?#[]@!\$&'\(\)\*\+,;=.]+).*$
Ungültige Email-Adressen filtern
Diese RegEx matcht ungültige Email-Adressen:
^(?!([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})).*$
Eigene Transformationen mit JavaScript schreiben
Datablist ermöglicht es Dir, eigenes JavaScript auf Deinen Daten laufen zu lassen. Damit kannst Du besondere Data Challenges lösen, spezielle Formate handhaben, komplexere Berechnungen durchführen und sehr individuelle Transformationen umsetzen.
Dieses Feature gibt Dir richtig viel Spielraum: Du kannst eigene Logik bauen, Loops verwenden, Bedingungen definieren und eine große Auswahl an JavaScript-Funktionen nutzen – auch für anspruchsvolle Data-Cleaning Tasks.
Öffne den JavaScript-Editor über „Run JavaScript“ im Menü „Edit“.
👉 Schau in unsere Doku, um mehr darüber zu lernen, wie Du JavaScript-Code schreibst.
Email-Adressen validieren
Daten aus Scraping können veraltet sein, Tippfehler enthalten oder schlicht ungültig sein. Das gilt besonders für Email-Adressen, die Du aus Scraping bekommst.
Wenn Daten user-generated sind, landen auch Fake-Email-Adressen in Deiner Datenbank – oder Adressen von Disposable-Providern.
Datablist hat ein integriertes Email-Validation Tool, mit dem Du tausende Email-Adressen validieren kannst.
Der Email-Validation Service liefert:
- Email syntax analysis – Als erstes wird geprüft, ob die Email dem IEFT-Standard entspricht (vollständige syntaktische Analyse). Dabei werden z. B. Adressen ohne @ oder mit ungültigen Domains erkannt.
- Disposable providers check – Als zweites werden temporäre Emails erkannt. Der Service prüft Domains von Disposable Email Address (DEA) Providern wie Mailinator, Temp-Mail, YopMail usw.
- Domain MX records check – Eine gültige Email-Adresse braucht eine Domain mit korrekt gesetzten MX-Records. Diese MX-Records zeigen, welcher Mailserver Emails für die Domain annimmt. Fehlen MX-Records, ist die Adresse ungültig. Für jede Domain prüft der Service die DNS-Records und speziell die MX-Einträge. Existiert die Domain nicht, wird die Email als ungültig markiert. Existiert sie, aber ohne gültigen MX-Record, ebenfalls.
- Business and Personal Email addresses Segmentation – Wenn Du Prospects aus Lead Magnets hast oder Deine User Base segmentieren willst, möchtest Du oft zwischen Business- und Personal-Emails unterscheiden. Der Service liefert Dir diese Info als Enrichment.
👉 Schau Dir unseren Guide an, wie Du eine Email-Liste cleanst.
FAQ
Was ist Data Cleaning und warum ist es wichtig?
Data Cleaning (auch Data Cleansing oder Data Scrubbing) beschreibt den Prozess, Fehler, Inkonsistenzen und Ungenauigkeiten in einem Datensatz zu identifizieren und zu korrigieren oder zu entfernen. Dazu gehört z. B. das Erkennen und Beheben von fehlenden Werten, Duplicates, Formatierungsfehlern, Ausreißern und uneinheitlichen Darstellungen.
Data Cleaning ist ein zentraler Schritt in der Datenverarbeitung, weil es sicherstellt, dass Daten korrekt, verlässlich und für Analysen oder andere Use Cases wirklich nutzbar sind.
Welche anderen kostenlosen Tools gibt es für Data Cleaning?
Die Data-Cleaning-Landschaft reicht von generischen Tools (z. B. Spreadsheet-Tools) bis zu spezialisierten Anwendungen. Hier ist eine Liste empfehlenswerter kostenloser Tools neben Datablist, die Du für Data-Cleaning nutzen kannst.
OpenRefine
OpenRefine (früher Google Refine) ist ein Open-Source-Tool, das sich auf das Erkunden, Bereinigen und Transformieren von messy und inkonsistenten Daten fokussiert.
OpenRefine ist eine standalone Desktop-App und kompatibel mit tabellarischen Dateien (CSV, TSV), Microsoft-Excel-Dateien und weiteren strukturierten Formaten wie JSON und XML.
OpenRefine ist besonders hilfreich bei kaputten/ungültigen CSV-Dateien:
- Es kommt sehr gut mit CSV-Encoding-Problemen klar
- Es bietet Optionen, um CSV-Formatfehler zu beheben
Auf der Minus-Seite: OpenRefine hat eine steile Lernkurve und es fehlen einige business-nahe Features. Es hat keine echte Deduplication-Engine oder einfache Workflows, um einen Datensatz mit einer anderen Liste zu joinen (zum Updaten/Konsolidieren). Außerdem fehlen Collaboration-Features sowie business-relevante Enrichments und Integrationen.
Microsoft Excel und Google Sheets
Microsoft Excel und Google Sheets sind leistungsstarke Spreadsheet-Apps, die Du für Data Cleaning und Data Preparation nutzen kannst. Trotz einiger Unterschiede bieten beide Tools viele Features, mit denen Du Daten bereinigen und transformieren kannst.
Du kannst Formeln für Transformation und Manipulation nutzen. Und mit Conditional Formatting kannst Du ungültige Werte hervorheben, die manuell geprüft werden müssen.
Brauchst Du Hilfe bei Deinem Data Cleaning?
Ich freue mich immer über Feedback und echte Data-Cleaning-Probleme, die wir fixen sollten. Bitte kontaktier mich und teile Deinen Use Case.












































