Data Cleaning (auch „Data Cleansing“) ist längst nicht mehr nur ein Thema für Data Analysts. Wenn Du mit einer Prospect-Liste arbeitest, Scraped Data in Deinen Prozessen nutzt oder mehrere Datenquellen zusammenführst, kennst Du den Unterschied, den sauberes Datenmaterial macht.

Google Sheets und Excel reichen für einfache Aufgaben – stoßen aber schnell an Grenzen, wenn es um Konsolidierung und Deduplication geht.

In diesem Guide zeige ich Dir, wie Du Datablist nutzt – ein kostenloses Online-Tool, um Deine Daten zu bereinigen und zu normalisieren.

Hier ist eine schnelle Übersicht über die Clean-up-Operationen, die wir in diesem Artikel durchgehen:

Import aus CSV oder per Copy-Paste

Datablist ist perfekt für Data Cleaning. Es ist ein online CSV editor mit Cleaning-, Bulk-Editing- und Enrichment-Features. Und Du kannst damit Collections mit Millionen von Items bearbeiten.

Öffne Datablist und lade Deine Datenquellen/Collections.

Um eine neue Collection zu erstellen, klicke in der Sidebar auf den +-Button. Danach „Import CSV/Excel“, um Deine Datei zu laden. Alternativ kannst Du über den Shortcut auf der Getting-started-Seite direkt zum Import springen.

Create a collection
Create a collection

Format automatisch erkennen

Der Datablist-Import-Assistent erkennt automatisch Email-Adressen, Datetimes in ISO 8601, Booleans, Numbers, URLs usw. – wenn sie sauber formatiert sind.

Type auto detection
Type auto detection

Wenn Deine Daten eine komplexere Analyse brauchen (anderes Datetime-Format, Tippfehler in URL oder Email-Adresse), importiere sie als Text-Property. Im nächsten Abschnitt zeige ich Dir, wie Du Text-Properties in Datetime, Boolean oder Number umwandelst.

Select data type
Select data type

Text in Datetime, Boolean oder Number umwandeln

Marie Kondo sagt: „Life truly begins after you have put your house in order“. Gilt genauso für Deine Daten: „Sales truly begins after you have put your data in order“! 😅

Nach einem Datum (Created Date, Funding Date usw.), einer Zahl (Preis, Mitarbeiterzahl) oder einem Boolean zu filtern ist einfach viel angenehmer, wenn das echte Datentypen sind – und nicht nur Text.

Öffne das Tool „Text to Datetime, Number, Checkbox“ im Menü „Clean“.

Convert Text to data types
Convert Text to data types

Beliebigen Text in ein Datetime-Format konvertieren

Datetime hat ein internationales Format namens ISO 8601 mit klarer Struktur. Wenn Deine Daten ISO 8601 nutzen, wird beim Import automatisch eine Datetime-Property erstellt.

Für Date- und Datetime-Werte in anderen Formaten musst Du das verwendete Format angeben, damit Datablist es in strukturierte Datetime-Werte umwandeln kann.

Wähle die Property aus und klicke auf „Convert to Datetime“.

Convert Text to Datetime
Convert Text to Datetime

Gängige Formate sind aufgelistet (z. B. Datetime-Formate aus Google Sheets und Excel). Oder Du wählst „Custom format“, um Dein eigenes Format zu definieren.

Custom Datetime format
Custom Datetime format
Datetime conversion preview
Datetime conversion preview

Wenn Du in einer einzigen Property mehrere Datums-/Datetime-Formate hast, wähle in „Datetime Conversion Format“ die Option „Custom or multiple formats“. Dann gibst Du ein Format pro Zeile ein. Datablist probiert die Formate der Reihe nach aus, bis ein gültiges Datum herauskommt.

👉 Schau in unsere Doku, um mehr über Custom Datetime Formats zu lernen.

Checkboxes (Boolean) aus Textwerten erstellen

Datablist konvertiert beim Import Spalten mit „Yes, No“, „TRUE, FALSE“ usw. automatisch in Checkbox-Properties. Für komplexere Fälle nutzt Du den Converter.

Definiere die Werte (mit Kommas getrennt), die zu checked werden sollen. Alle anderen Werte bleiben unchecked.

Checkbox conversion
Checkbox conversion
Checkbox conversion preview
Checkbox conversion preview

Zahlenwerte aus Texten extrahieren

Nutze den Converter „Text to number“, um:

  • Zahlen mit eigenen Dezimal- und Tausendertrennzeichen zu normalisieren
  • Zahlen aus Texten mit Buchstaben zu extrahieren
Number conversion
Number conversion
Number conversion preview
Number conversion preview

👉 Schau in unsere Doku, um mehr über Number Conversion zu lernen.

Daten bereinigen

HTML in Text umwandeln

Scraping-Tools parsen HTML – dadurch landen oft HTML-Tags in Deinen Texten.

HTML kann Links, Bilder und Listen enthalten. Außerdem hat es Absätze und Zeilenumbrüche.

Ziel ist es, einen Teil dieser Struktur zu behalten, aber den nicht lesbaren Code in Klartext zu verwandeln.

Der Datablist-Converter „HTML to Text“ behält Newlines bei und wandelt Bullet Points in Listen um, die mit - beginnen.

Um Text mit HTML-Tags in Plaintext umzuwandeln, öffne das Tool Bulk Edit im Menü Edit.

Bulk Edit Tool
Bulk Edit Tool

Wähle die Property mit den HTML-Tags und dann „Convert HTML into plain text“.

Bukl Edit Convert HTML
Bukl Edit Convert HTML
HTML to Text conversion
HTML to Text conversion
HTML to Text Results
HTML to Text Results

Überflüssige Leerzeichen entfernen

Ein weiterer Klassiker bei messy data: zu viele Leerzeichen. Die kommen z. B. aus Zeilenumbrüchen, aus Tab oder aus HTML-Zeichen, die ein Leerzeichen darstellen.

Datablist hat dafür ein eigenes Cleaning-Tool.

Es gibt zwei Modi:

  • Mode 1: Remove all spaces – entfernt wirklich alle Space-Zeichen. Ideal für Phone Numbers, Preise usw., wenn nur Buchstaben/Ziffern übrig bleiben sollen.
  • Mode 2: Remove only „extra spaces“.

Beim zweiten Modus funktioniert der Algorithmus so:

  • Er entfernt doppelte/mehrfache Leerzeichen zwischen Wörtern
  • Er entfernt leere Zeilen
  • Er entfernt führende und nachgestellte Leerzeichen pro Zeile

Um extra spaces zu entfernen, öffne „Bulk Edit“ im Menü „Edit“. Wähle Deine Property und dann die Aktion „Remove extra spaces“.

Aktiviere „Remove all spaces“, um alle Leerzeichen zu entfernen. Lass es aus, um nur „extra spaces“ zu löschen.

Remove Extra Space Configuration
Remove Extra Space Configuration

Beispiel: so sieht es mit extra spaces aus:

Remove Extra Space
Remove Extra Space

Nach dem Cleaning, ohne die extra spaces:

Remove Extra Space Results
Remove Extra Space Results

Groß-/Kleinschreibung bereinigen

Die Text-Case zu ändern ist easy: Öffne „Bulk Edit“ im Menü „Edit“.

Wähle die Property und nutze die Aktion „Change text case“.

Change Text Case
Change Text Case

Es gibt 4 Modi:

  • Uppercase – alles wird in Großbuchstaben umgewandelt. Beispiel: john => JOHN
  • Lowercase – alles wird in Kleinbuchstaben umgewandelt. Beispiel: API => api
  • Capitalize – erster Buchstabe jedes Wortes wird groß. Beispiel: john is a good man => John Is A Good Man
  • Capitalize only the first word – nur der erste Buchstabe des ersten Wortes wird groß. Beispiel: john is a good man => John is a good man

Symbole aus Texten entfernen

Texte, die aus HTML gescraped wurden oder aus User Inputs stammen (z. B. LinkedIn-Profil-Titles), enthalten oft Symbole: Smileys und andere Sonderzeichen, die Deine Datenverarbeitung stören. Ein Smiley am Ende eines Namens kann z. B. verhindern, dass er von einem deduplication algorithm erkannt wird.

Datablist hat dafür einen integrierten Processor, der Nicht-Text-Symbole aus Deinen Daten entfernt.

Klicke auf „Bulk Edit“ im Menü „Edit“, wähle eine Text-Property und dann die Transformation „Remove symbols“.

Remove symbols
Remove symbols

Wenn die Preview passt, starte die Transformation für alle Items.

Remove symbols results
Remove symbols results

Normalisierung mit Suchen und Ersetzen

Wenn Du Segmente auf Deinen prospect lists bauen willst, brauchst Du normalisierte Daten.

  • Job Titles normalisieren
  • Länder und Städte normalisieren
  • URLs normalisieren
  • usw.

Das Ziel: Aus freiem Text machst Du eine Property mit wenigen, klaren Optionen. Oder Du vereinfachst Texte (z. B. URLs mit Pfad) auf eine Basis-Version (z. B. nur die Domain).

Datablist hat ein starkes Find and Replace Tool – sowohl für normalen Text als auch für Regular Expressions.

Regular Expressions sind nicht ohne, aber extrem mächtig.

Hier sind ein paar Beispiele, wie Du RegEx fürs Data Cleaning einsetzen kannst.

Query-Parameter aus einer URL entfernen

Gescrapte URLs enthalten oft unnötige Query-Parameter für Tracking oder Marketing. Wenn Du sie entfernst, bekommst Du saubere URLs – und es hilft bei Deduplication, weil Du die URL nutzen kannst, um duplicate items zu finden.

Aktiviere dazu „Match using regular expression“ und nutze folgende RegEx mit leerem Replacement:

\?.*$
Regular Expression to remove query parameters
Regular Expression to remove query parameters

Und wende es auf Deine URL-Property an.

Preview without query params
Preview without query params

Domain aus Email-Adressen extrahieren

Ein weiterer Use Case für Find and Replace mit RegEx: Website-Domains aus Email-Adressen ziehen.

Dupliziere Deine Email-Property, damit Du die Originaldaten behältst. Nutze dann diese RegEx mit leerem Replacement:

^(\w)*@
Regular Expression to get domain from email address
Regular Expression to get domain from email address
Domains from email addresses preview
Domains from email addresses preview

👉 Mehr dazu findest Du in unserer Find and Replace Doku.

Voller Name in First Name und Last Name aufteilen

Wenn Du Lead-Listen scrapest, bekommst Du Kontakte oft als „Full Name“ – den Du dann in „First Name“ und „Last Name“ splitten musst. Namen zuverlässig in Bestandteile zu zerlegen ist ein wichtiger Schritt.

Das Trennen von Vor- und Nachnamen hilft Dir, Personen in Cold Emailing Kampagnen persönlicher anzusprechen, das Gender besser abzuleiten und akademische Titel zu erkennen.

Names zu splitten kann tricky sein. Zum Glück bietet Datablist ein einfaches Tool, um „Name“ anhand von Leerzeichen in zwei Werte aufzuteilen.

Öffne dafür das Tool „Split Property“ im Menü „Edit“.

Split Property tool
Split Property tool

Wähle dann die Property mit den Namen aus. Setze Space als Delimiter und stelle die maximale Anzahl Parts auf 2.

Configure Split Property
Configure Split Property

Starte die Preview. Datablist parsed die ersten 10 Items und zeigt Dir ein Preview. Wenn das Ergebnis passt, klicke auf „Split Property“, um es auf alle aktuellen Items anzuwenden.

Run preview
Run preview

Nach dem Split benennst Du die beiden neuen Properties in „First Name“ und „Last Name“ um.

First Name and Last Name results
First Name and Last Name results

Dieses Beispiel fokussiert die westliche Namenskonvention (typisch: First Name + Last Name). Es wird komplexer bei nicht-westlichen Namen – etwa mit mehreren Vornamen oder Nachnamen – oder wenn Titel/Suffixe enthalten sind.

Daten deduplizieren

Datablist hat einen leistungsstarken Deduplication-Algorithmus, um records zu dedupen. Er findet ähnliche Items über eine oder mehrere Properties und kann sie automatisch mergen, ohne Daten zu verlieren.

Um Deduplication zu starten, klicke im Menü „Clean“ auf „Duplicate Finder“.

Run Duplicate Finder
Run Duplicate Finder

Wähle die Properties aus, die fürs Matching verwendet werden sollen.

Auf der Results-Seite startest Du „Auto Merge“ zuerst einmal nur mit der Option „Merge non-conflicting duplicates“. Damit werden die Duplikate gemerged, die sich sauber zusammenführen lassen – und Datablist listet Dir die Properties mit Konflikten.

Der dedupe algorithm hat zwei Optionen für Konflikte: Du kannst „Combine conflicting properties“ mit einem Delimiter verwenden – oder widersprüchliche Werte droppen, sodass nur ein Master Item bleibt.

Automatic Merging
Automatic Merging

👉 Hier ist unser Guide, wie Du Duplicates in CSV-Dateien mergst. Und unser Guide, um Duplicates über Company Names zu finden und zu mergen.

Email-Adressen, URLs usw. aus Texten extrahieren

Der Datablist Data Extractor hilft Dir, unstrukturierte Texte zu parsen und Entities zu extrahieren.

Er nutzt Pattern Recognition und erkennt:

  • Email addresses aus einem Text
  • URLs aus einem Text
  • Domain aus URLs
  • Domain aus Email addresses
  • Mentions (z. B. @name) aus einem Text
  • Tags (z. B. #tag) aus einem Text

Der Data Extractor ist ideal für Data Analysis und um Deine Daten zu strukturieren. Mit sauber formatierten Email addresses, URLs usw. kannst Du Deine Daten besser mit anderen Tools verbinden und Automations bauen.

Beispiel: Sobald Du Email addresses hast, kannst Du sie enrichen, um Contact Information zu finden. Oder Du nutzt die Domain aus URLs, um z. B. ein Traffic-Ranking zu ziehen (früher häufig über Alexa – heute eher über Alternativen wie Similarweb oder Tranco, je nach Use Case).

Den Datablist Data Extractor findest Du unter „Edit Menu -> Extract url, email, tag, etc.“.

Data Extractor
Data Extractor

Wähle die Property mit unstrukturiertem Text aus und picke einen Parser.

Data Extractor Parsers
Data Extractor Parsers

Starte den Parser für ein Preview. Wenn die Preview passt, klicke auf „Extract“, um alle Items zu verarbeiten.

Data Extractor Preview
Data Extractor Preview

Regular Expressions zum Filtern und Validieren nutzen

Datablist lässt Dich Regular Expression nutzen, um Deine Daten zu filtern.

Text-Filter basierend auf der Wortanzahl

Mit dieser Regular Expression filterst Du Texte mit mindestens {n} Wörtern:

(?:\w+(?:\s|$)){5,} (ersetze die 5 durch eine beliebige Zahl)

Weitere Varianten:

  • (?:\w+(?:\s|$)){,5}: Texte mit weniger als 5 Wörtern (inkl. Texte mit genau 5 Wörtern)
  • (?:\w+(?:\s|$)){5,10}: Texte mit 5 bis 10 Wörtern
Filter texts with mininum 5 words
Filter texts with mininum 5 words
Results filtering mininum 5 words
Results filtering mininum 5 words

Ungültige URLs filtern

Diese RegEx matcht ungültige URLs:

^(?!(?:http(s)?:\/\/)?[\w.-]+(?:\.[\w\.-]+)+[\w\-\._~:/?#[]@!\$&'\(\)\*\+,;=.]+).*$

Filter Invalid URLs
Filter Invalid URLs
Results filtering invalid URLs
Results filtering invalid URLs

Ungültige Email-Adressen filtern

Diese RegEx matcht ungültige Email-Adressen:

^(?!([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})).*$

Filter Invalid Emails
Filter Invalid Emails
Results filtering Invalid Emails
Results filtering Invalid Emails

Eigene Transformationen mit JavaScript schreiben

Datablist ermöglicht es Dir, eigenes JavaScript auf Deinen Daten laufen zu lassen. Damit kannst Du besondere Data Challenges lösen, spezielle Formate handhaben, komplexere Berechnungen durchführen und sehr individuelle Transformationen umsetzen.

Dieses Feature gibt Dir richtig viel Spielraum: Du kannst eigene Logik bauen, Loops verwenden, Bedingungen definieren und eine große Auswahl an JavaScript-Funktionen nutzen – auch für anspruchsvolle Data-Cleaning Tasks.

Öffne den JavaScript-Editor über „Run JavaScript“ im Menü „Edit“.

Data cleaning with JavaScript code
Data cleaning with JavaScript code

👉 Schau in unsere Doku, um mehr darüber zu lernen, wie Du JavaScript-Code schreibst.

Email-Adressen validieren

Daten aus Scraping können veraltet sein, Tippfehler enthalten oder schlicht ungültig sein. Das gilt besonders für Email-Adressen, die Du aus Scraping bekommst.

Wenn Daten user-generated sind, landen auch Fake-Email-Adressen in Deiner Datenbank – oder Adressen von Disposable-Providern.

Datablist hat ein integriertes Email-Validation Tool, mit dem Du tausende Email-Adressen validieren kannst.

Click on "Enrich"
Click on "Enrich"

Der Email-Validation Service liefert:

  • Email syntax analysis – Als erstes wird geprüft, ob die Email dem IEFT-Standard entspricht (vollständige syntaktische Analyse). Dabei werden z. B. Adressen ohne @ oder mit ungültigen Domains erkannt.
  • Disposable providers check – Als zweites werden temporäre Emails erkannt. Der Service prüft Domains von Disposable Email Address (DEA) Providern wie Mailinator, Temp-Mail, YopMail usw.
  • Domain MX records check – Eine gültige Email-Adresse braucht eine Domain mit korrekt gesetzten MX-Records. Diese MX-Records zeigen, welcher Mailserver Emails für die Domain annimmt. Fehlen MX-Records, ist die Adresse ungültig. Für jede Domain prüft der Service die DNS-Records und speziell die MX-Einträge. Existiert die Domain nicht, wird die Email als ungültig markiert. Existiert sie, aber ohne gültigen MX-Record, ebenfalls.
  • Business and Personal Email addresses Segmentation – Wenn Du Prospects aus Lead Magnets hast oder Deine User Base segmentieren willst, möchtest Du oft zwischen Business- und Personal-Emails unterscheiden. Der Service liefert Dir diese Info als Enrichment.
Email verification results
Email verification results

👉 Schau Dir unseren Guide an, wie Du eine Email-Liste cleanst.

FAQ

Was ist Data Cleaning und warum ist es wichtig?

Data Cleaning (auch Data Cleansing oder Data Scrubbing) beschreibt den Prozess, Fehler, Inkonsistenzen und Ungenauigkeiten in einem Datensatz zu identifizieren und zu korrigieren oder zu entfernen. Dazu gehört z. B. das Erkennen und Beheben von fehlenden Werten, Duplicates, Formatierungsfehlern, Ausreißern und uneinheitlichen Darstellungen.

Data Cleaning ist ein zentraler Schritt in der Datenverarbeitung, weil es sicherstellt, dass Daten korrekt, verlässlich und für Analysen oder andere Use Cases wirklich nutzbar sind.

Welche anderen kostenlosen Tools gibt es für Data Cleaning?

Die Data-Cleaning-Landschaft reicht von generischen Tools (z. B. Spreadsheet-Tools) bis zu spezialisierten Anwendungen. Hier ist eine Liste empfehlenswerter kostenloser Tools neben Datablist, die Du für Data-Cleaning nutzen kannst.

OpenRefine

OpenRefine (früher Google Refine) ist ein Open-Source-Tool, das sich auf das Erkunden, Bereinigen und Transformieren von messy und inkonsistenten Daten fokussiert.

OpenRefine ist eine standalone Desktop-App und kompatibel mit tabellarischen Dateien (CSV, TSV), Microsoft-Excel-Dateien und weiteren strukturierten Formaten wie JSON und XML.

OpenRefine ist besonders hilfreich bei kaputten/ungültigen CSV-Dateien:

  • Es kommt sehr gut mit CSV-Encoding-Problemen klar
  • Es bietet Optionen, um CSV-Formatfehler zu beheben

Auf der Minus-Seite: OpenRefine hat eine steile Lernkurve und es fehlen einige business-nahe Features. Es hat keine echte Deduplication-Engine oder einfache Workflows, um einen Datensatz mit einer anderen Liste zu joinen (zum Updaten/Konsolidieren). Außerdem fehlen Collaboration-Features sowie business-relevante Enrichments und Integrationen.

Microsoft Excel und Google Sheets

Microsoft Excel und Google Sheets sind leistungsstarke Spreadsheet-Apps, die Du für Data Cleaning und Data Preparation nutzen kannst. Trotz einiger Unterschiede bieten beide Tools viele Features, mit denen Du Daten bereinigen und transformieren kannst.

Du kannst Formeln für Transformation und Manipulation nutzen. Und mit Conditional Formatting kannst Du ungültige Werte hervorheben, die manuell geprüft werden müssen.

Brauchst Du Hilfe bei Deinem Data Cleaning?

Ich freue mich immer über Feedback und echte Data-Cleaning-Probleme, die wir fixen sollten. Bitte kontaktier mich und teile Deinen Use Case.