Web-Scraping-Daten online bereinigen

Wenn Du Prospect-Listen aus Scraping-Daten baust, landest Du früher oder später bei dieser Frage: Wie bereinige und normalisiere ich meine Daten?

Wenn Du das schon mal in Google Sheets versucht hast, weißt Du: Das Tool ist dafür einfach nicht gemacht.

Daten aus LinkedIn haben zum Beispiel oft nur ein Feld „Full Name“, während andere Quellen getrennte Felder für Vor- und Nachname liefern. E-Mail-Adressen enthalten Tippfehler aus dem Scraping-Prozess, Datumsangaben kommen in zig Formaten, usw.

In diesem Guide lernst Du, wie Du 99% der typischen Scraping-Probleme fixst. Und für das letzte 1%: Schreib mir einfach, ich helfe Dir weiter 👨‍💻

Hier ist eine kurze Übersicht über die Clean-up-Tasks, die wir in diesem Artikel abdecken:

Text in Datetime, Number, Boolean umwandeln
HTML in Text umwandeln (HTML-Tags entfernen)
Überflüssige Leerzeichen aus Texten entfernen
Daten normalisieren
Symbole aus Texten entfernen
Full Name in First Name und Last Name splitten
Einträge deduplizieren
E-Mail-Adressen validieren
Personen- oder Firmennamen aus gescrapten Texten extrahieren

Import aus CSV oder per Copy-Paste

Datablist ist ideal fürs Data Cleaning. Es ist ein online CSV editor mit Features für Cleaning, Bulk Editing und Enrichment. Und es skaliert problemlos bis zu Millionen von Einträgen pro Collection.

Öffne Datablist, erstelle eine Collection und lade Deine CSV-Datei mit den gescrapten Daten hoch.

Um eine neue Collection zu erstellen, klickst Du in der Sidebar auf den +-Button. Dann auf „Import CSV/Excel“, um Deine Datei zu laden. Alternativ kannst Du den Shortcut auf der Getting-Started-Seite nutzen, um direkt zum Import-Schritt zu springen.

Format automatisch erkennen

Der Datablist Import-Assistent erkennt automatisch E-Mail-Adressen, Datetimes im ISO-8601-Format, Booleans, Numbers, URLs usw. wenn sie korrekt formatiert sind.

Wenn Deine Daten eine komplexere Analyse brauchen (anderes Datumsformat, Tippfehler in URL oder E-Mail), importiere sie als Text-Property. Im nächsten Abschnitt zeige ich Dir, wie Du Text-Properties in Datetime, Boolean oder Number konvertierst.

Text in Datetime, Boolean, Number umwandeln

Marie Kondo sagt: „Life truly begins after you have put your house in order.“ Gilt auch für Scraping-Daten: „Sales truly begins after you have put your data in order“! 😅

Nach Datum (Erstellungsdatum, Funding-Date, etc.), Zahl (Preis, Mitarbeiterzahl) oder Boolean zu filtern ist viel einfacher, wenn das echte Datentypen sind und nicht einfach nur Text.

Öffne das Tool „Text to Datetime, Number, Checkbox“ im Menü „Clean“.

Beliebigen Text in ein Datetime-Format konvertieren

Datetime hat ein internationales Standardformat namens ISO 8601 mit klar definierter Struktur. Wenn Deine Daten ISO 8601 nutzen, wird beim Import automatisch eine Datetime-Property erstellt.

Für Date- und Datetime-Werte in anderen Formaten musst Du das verwendete Format angeben, damit Datablist es in strukturierte Datetime-Werte konvertieren kann.

Wähle die Property aus und dann „Convert to Datetime“.

Du kannst aus gängigen Formaten wählen (wie sie Google Sheets und Excel verwenden) oder „Custom format“ auswählen und Dein Format selbst definieren.

👉 Schau in unsere Dokumentation, um mehr über Custom-Datetime-Formate zu lernen.

Checkboxes (Boolean) aus Textwerten erstellen

Datablist konvertiert beim Import automatisch Spalten wie „Yes, No“, „TRUE, FALSE“ usw. in Checkbox-Properties. Für komplexere Fälle nutzt Du den Converter.

Definiere die Werte (durch Kommas getrennt), die in eine aktivierte Checkbox umgewandelt werden sollen. Alle anderen Werte bleiben deaktiviert.

Zahlenwerte aus Texten extrahieren

Nutze den Converter „Text to number“, um:

Zahlen mit eigenen Dezimal- und Tausendertrennzeichen zu normalisieren
Zahlen aus Texten mit Buchstaben zu extrahieren

👉 Schau in unsere Dokumentation, um mehr zur Number-Conversion zu erfahren.

Daten bereinigen

HTML in Text umwandeln

Scraping-Tools parsen HTML-Code — und dadurch landen oft HTML-Tags in Deinen Textfeldern.

HTML enthält Links, Bilder und Listen mit Bullet Points. Außerdem ist es in Absätzen, Zeilenumbrüchen und Multi-Lines aufgebaut.

Das Ziel: Einen Teil dieser Struktur behalten, aber den nicht-lesbaren Code in Klartext umwandeln.

Der Datablist HTML-to-Text Converter behält Newlines und wandelt Bullet Points in Listen um, die mit - beginnen.

Um Text mit HTML-Tags in Plaintext zu transformieren, öffne das Bulk Edit Tool im Edit Menü.

Wähle die Property mit den HTML-Tags aus und dann „Convert HTML into plain text“.

Überflüssige Leerzeichen entfernen

Ein weiteres Standardproblem bei Scraping-Daten: zu viele Leerzeichen. Die kommen durch Zeilenumbrüche, Tab und andere Zeichen, die im HTML als Whitespace auftauchen.

Datablist hat dafür ein Cleaning-Tool, das extra Spaces zuverlässig rausnimmt.

Entfernt doppelte/mehrfache Leerzeichen zwischen Wörtern
Entfernt leere Zeilen
Entfernt führende und nachgestellte Leerzeichen pro Zeile

Um extra Spaces zu entfernen, öffne „Bulk Edit“ im Menü „Edit“. Wähle Deine Property und dann die Action „Remove extra spaces“.

Groß-/Kleinschreibung bereinigen

Die Schreibweise anzupassen ist simpel: Öffne das „Bulk Edit“ Tool im Menü „Edit“.

Wähle die Property, die Du bearbeiten willst, und nutze die Action „Change text case“.

Es gibt 4 Modi:

Uppercase - Alle Buchstaben werden in Großbuchstaben konvertiert. Bsp.: john => JOHN
Lowercase - Alle Buchstaben werden in Kleinbuchstaben konvertiert. Bsp.: API => api
Capitalize - Der erste Buchstabe jedes Wortes wird groß geschrieben. Bsp.: john is a good man => John Is A Good Man
Capitalize only the first word - Nur der erste Buchstabe des ersten Wortes wird groß geschrieben. Bsp.: john is a good man => John is a good man

Symbole aus Texten entfernen

Texte, die aus HTML gescraped wurden oder aus User Inputs kommen (z. B. LinkedIn Profile Titles), enthalten oft Symbole: Smileys und andere Sonderzeichen, die Deine Datenverarbeitung stören. Ein einzelner Smiley am Ende eines Namens kann z. B. verhindern, dass ein deduplication algorithm den Datensatz korrekt erkennt.

Datablist hat dafür einen eingebauten Processor, der Nicht-Text-Symbole aus Deinen Daten entfernt.

Klicke im Menü „Edit“ auf „Bulk Edit“, wähle eine Text-Property und dann die Transformation „Remove symbols“.

Wenn die Preview passt, starte die Transformation für alle Items.

Normalisierung mit Find and Replace

Wenn Du Segmente in Deinen prospect lists bauen willst, musst Du Deine Daten normalisieren.

Job Titles normalisieren
Länder, Städte normalisieren
URLs normalisieren
usw.

Dein Ziel: Ein Free-Text-Feld auf eine überschaubare Auswahl an Werten reduzieren. Oder Texte auf eine „Basis-Version“ bringen (z. B. URL mit Pfad → nur Domain).

Datablist hat dafür ein starkes Find-and-Replace-Tool. Es funktioniert mit normalem Text und mit Regular Expressions.

Regular Expressions sind nicht gerade „easy“, aber extrem mächtig.

Hier ein paar Beispiele, wie Du mit RegEx Scraping-Daten sauber bekommst.

Query-Parameter aus einer URL entfernen

Gescrapte URLs enthalten oft unnötige Query-Parameter (Tracking/Marketing). Wenn Du sie entfernst, bekommst Du saubere URLs — und Du kannst sie besser für Deduplication nutzen, z. B. um über die URL duplicate items zu finden.

Um Query-Parameter zu entfernen, aktiviere „Match using regular expression“ und nutze folgenden Ausdruck mit leerem Replacement-Text:

\?.*$

Regular Expression to remove query parameters

Wende es auf Deine URL-Property an.

Domain aus E-Mail-Adressen ziehen

Ein weiterer Use Case für Find and Replace mit Regular Expressions: Domains aus E-Mail-Adressen extrahieren.

Dupliziere Deine E-Mail-Property, damit Du die Quelldaten behältst. Dann nutze folgenden Ausdruck mit leerem Replacement-Text:

^(\w)*@

Regular Expression to get domain from email address

👉 Mehr dazu findest Du in unserer Find-and-Replace-Dokumentation.

Full Name in First Name und Last Name splitten

Wenn Du Lead-Listen scrapest, bekommst Du oft Kontakte mit „Full Name“, den Du in „First Name“ und „Last Name“ aufteilen musst. Ein Name sauber in seine Bestandteile zu zerlegen, ist ein wichtiger Schritt.

Vorname/Nachname getrennt zu haben ist z. B. hilfreich, um Menschen in Cold Emailing Kampagnen persönlicher anzusprechen, um das Geschlecht abzuleiten oder um akademische Titel zu erkennen.

Namen zu splitten kann tricky sein. Zum Glück bietet Datablist ein einfaches Tool, um „Name“ anhand von Leerzeichen in zwei Werte zu zerlegen.

Starte, indem Du im Menü „Edit“ das Tool „Split Property“ öffnest.

Dann wähle die Property mit den Namen aus. Setze als Delimiter Space und die maximale Anzahl an Parts auf 2.

Starte die Preview. Datablist parsed Deine ersten 10 Items und erstellt eine Vorschau. Wenn die Ergebnisse passen, klickst Du auf „Split Property“, um den Split auf alle aktuellen Items anzuwenden.

Nach dem Split benennst Du die beiden neuen Properties in „First Name“ und „Last Name“ um.

Dieses Beispiel fokussiert sich auf westliche Namenskonventionen (typisch: Vorname + Nachname). In der Praxis kann es komplexer werden, z. B. bei nicht-westlichen Namenssystemen, mehreren Vornamen/Nachnamen oder bei Titeln und Suffixen.

Daten deduplizieren

Datablist hat einen starken Deduplication-Algorithmus, um Records zu dedupen. Er findet ähnliche Items anhand einer oder mehrerer Properties und kann Duplikate automatisch mergen, ohne dass Du Daten verlierst.

Um den Deduplication-Algorithmus zu starten, klicke im Menü „Clean“ auf „Duplicate Finder“.

Wähle die Properties, die fürs Matching verwendet werden sollen.

Auf der Results-Seite führst Du den „Auto Merge“-Algorithmus einmal aus — und zwar nur mit der Option „Merge non-conflicting duplicates“. Damit werden Duplikate gemerged, die eindeutig zusammenpassen, und Properties mit Konflikten werden aufgelistet.

Der dedupe algorithm bietet zwei Optionen für Konflikte: Du kannst „Combine conflicting properties“ mit einem Delimiter nutzen oder konfliktbehaftete Werte droppen und nur ein Master-Item behalten.

👉 Hier ist unser Guide zum Merge von Duplikaten in CSV-Dateien.

E-Mail-Adressen validieren

Scraping-Daten können veraltet sein, Tippfehler enthalten oder schlicht ungültig sein. Das gilt besonders für E-Mail-Adressen, die Du per Scraping einsammelst.

Wenn Daten user-generated sind, landen außerdem oft Fake-E-Mails in Deiner Datenbank — oder Adressen von Disposable Providern.

Datablist hat ein eingebautes Email Validation Tool, mit dem Du tausende E-Mail-Adressen validieren kannst.

Der Email-Validation-Service liefert:

Email syntax analysis - Der erste Check stellt sicher, dass die E-Mail dem IEFT-Standard entspricht und führt eine vollständige Syntaxanalyse durch. Dabei werden Adressen ohne @, mit ungültigen Domains usw. markiert.
Disposable providers check - Der zweite Check erkennt temporäre E-Mails. Der Service sucht nach Domains, die zu Disposable Email Address (DEA) Providern gehören, z. B. Mailinator, Temp-Mail, YopMail, etc.
Domain MX records check - Eine gültige E-Mail-Adresse braucht eine Domain mit konfigurierten MX-Records. Diese MX-Records definieren den Mailserver, der E-Mails für die Domain annimmt. Fehlende MX-Records sind ein starkes Zeichen für ungültige Adressen. Für jede E-Mail-Domain prüft der Service die DNS-Records und sucht nach MX-Einträgen. Wenn die Domain nicht existiert, wird die E-Mail als ungültig markiert. Existiert die Domain, hat aber keinen gültigen MX-Record, wird sie ebenfalls als ungültig markiert.
Business and Personal Email addresses Segmentation - Bei Prospects aus Lead Magnets oder wenn Du Deine User Base segmentieren willst, ist die Unterscheidung zwischen Business- und privaten E-Mails oft relevant. Der Service liefert Dir diese Info zur Anreicherung Deiner Kontaktdaten.

👉 Schau Dir unseren Guide an, wie Du eine Email-Liste bereinigst.

Personen- oder Firmennamen aus gescrapten Texten extrahieren

Wenn Du Texte von Websites oder anderen Quellen scrapest, ist es oft super hilfreich, daraus die Namen von Personen oder Unternehmen zu extrahieren. Das kannst Du für Lead Generation, Competitive Research oder Data Enrichment nutzen. Der Haken: Namen aus unstrukturiertem Text zu ziehen ist nicht trivial — sie kommen in vielen Varianten vor und stecken häufig mitten in größeren Textblöcken.

Eine der größten Herausforderungen ist die Vielfalt an Namenskonventionen je nach Kultur und Sprache. Manche Kulturen schreiben den Familiennamen vor den Vornamen, andere umgekehrt. Manche Menschen haben mehrere Vornamen, andere gar keinen. Außerdem sind Namen oft falsch geschrieben, abgekürzt oder in unüblichen Formaten notiert. Das macht simples Pattern-Matching schnell unzuverlässig.

Ein gängiger Ansatz ist Named Entity Recognition (NER). Das ist eine NLP-Technik, die Entities in Text erkennt und klassifiziert, z. B. Personen, Organisationen oder Orte. NER-Modelle können auf verschiedene Entity-Typen trainiert werden und lassen sich an unterschiedliche Namenskonventionen anpassen.

Datablist enthält ein starkes „Named Entity Recognition“ (NER) Model, das Du direkt auf Deinen Texten laufen lassen kannst. Es ist trainiert für Arabisch, Deutsch, Englisch, Spanisch, Französisch, Italienisch, Lettisch, Niederländisch, Portugiesisch und Chinesisch.

Wähle „Entity name extraction“ im Menü „Enrichments“.

Wähle dann in den Input-Optionen die Property aus, aus deren Texten Du Namen extrahieren willst.

Bei den Outputs klickst Du für jede Art von Namen, die Du extrahieren willst, auf „Create a new property“.

Der Datablist Entity Name Extractor sucht nach:

Organization Name: z. B. Unternehmen.
Person Name: Full Name oder First Name/Last Name
Location: Stadt, Land und Orte

Dann startest Du das Enrichment.

Brauchst Du Hilfe beim Data Cleaning?

Ich bin immer auf der Suche nach Feedback und echten Data-Cleaning-Problemen, die wir besser lösen können. Bitte kontaktier mich und teile Deinen Use Case.