Duplikate zu finden ist schon tricky – aber es wird richtig anspruchsvoll, wenn ein einziges Feld mehrere Werte enthält.

Stell dir eine Kontaktliste vor, in der im Feld „Emails“ mehrere E-Mail-Adressen durch Kommas getrennt stehen. Oder eine Firmendatenbank, in der in der Spalte „URLs“ mehrere Links (Website, Social Media, Landingpages) in einer einzigen Zelle landen.

Klassische Deduplication-Tools tun sich damit oft schwer: Zwei Datensätze sind ja schon dann Duplikate, wenn sie auch nur einen dieser Werte gemeinsam haben – selbst wenn der Rest unterschiedlich aussieht.

Datablist ist genau für solche Fälle eine starke Lösung.

In diesem Artikel siehst du, wie du eine Liste deduplizierst, wenn dein Matching-Feld mehrere Werte enthält:

Schritt 1: Daten für die Deduplication importieren und vorbereiten

Als Erstes bringst du deine Daten in Datablist – z. B. per CSV/Excel-Import oder über eine Verbindung zu deinem CRM bzw. anderen Data Sources.

Import Your Data
Import Your Data

Nach dem Import solltest du dir das Feld anschauen, das mehrere Werte enthält. Datablist’s „Multiple Values“-Feature ist dafür ausgelegt, mit Werten zu arbeiten, die durch ein Semikolon (;) getrennt sind.

Beispiel:

Angenommen, du hast ein Feld „Emails“ in deiner Kontaktliste. Die Werte sehen so aus:

  • Record 1: john.doe@example.com; jane.doe@example.com; info@example.com
  • Record 2: jane.doe@example.com; support@example.com; sales@example.com
  • Record 3: john.doe@example.com; marketing@example.com

Datablist erkennt dann, dass Record 1 und Record 3 beide „john.doe@example.com“ enthalten – und dass Record 1 und Record 2 beide „jane.doe@example.com“ drin haben, obwohl alles in einem einzigen Feld steht.

Verschiedene Trennzeichen richtig handhaben:

Wenn deine Werte aktuell nicht mit Semikolon getrennt sind (z. B. Komma, Pipe, Leerzeichen), musst du die Daten zuerst normalisieren, bevor du den Duplicates Finder nutzt. Dafür eignet sich Datablist’s starkes Find & Replace.

So nutzt du Find & Replace, um deine Trennzeichen auf Semikolon zu standardisieren:

  1. Öffne deine Datablist Collection.
  2. Wähle die Spalte aus, die die mehreren Werte enthält.
  3. Gehe ins Menü „Clean“ und wähle „Find & Replace“.
  4. Gib im Feld „Find“ dein aktuelles Trennzeichen ein (z. B. , für komma-getrennte Werte).
  5. Gib im Feld „Replace with“ ein Semikolon ; ein.
  6. Klicke auf „Apply“.
Review Your Data
Review Your Data

Wenn alle Multi-Value-Felder konsequent ein Semikolon als Separator nutzen, kann Datablist’s „Multiple Values“-Feature sauber und zuverlässig matchen.

Schritt 2: Duplikate mit Multi-Value-Matching finden

Sobald deine Daten importiert sind und die Multi-Value-Felder (mit Semikolon als Separator) vorbereitet sind, kannst du Duplikate suchen.

  1. Gehe ins Menü „Clean“ und wähle „Duplicates Finder“.

    Open Duplicates Finder Tool
    Open Duplicates Finder Tool
  2. Wähle im Duplicates Finder die Spalte, die du fürs Matching nutzen willst – z. B. „Emails“ aus dem Beispiel.

    Select the Property
    Select the Property
  3. Ganz wichtig: Aktiviere die Checkbox „Multiple Values“. Danach erscheint ein Feld, in dem du den Separator bestätigen oder anpassen kannst. Stell sicher, dass dort ; (Semikolon) steht.

    Enable Multiple Values Option
    Enable Multiple Values Option
  4. Wähle deinen Matching-Algorithmus und den Processor

    Datablist bringt verschiedene Deduplication-Algorithmen mit. Die zwei wichtigsten sind:

    • Smart Algorithm: Ein sehr guter Startpunkt. Er schaut sich die einzelnen Emails innerhalb eines Records an und findet Records, die eine oder mehrere gemeinsame Emails teilen.
    • Distance Algorithm: Sinnvoll, wenn du leichte Abweichungen oder Tippfehler erwartest (z. B. „john.doe@exmaple.com“ vs. „john.doe@example.com“). Dafür legst du einen Similarity-Threshold fest, ab wann Werte als Match gelten.

    Zusätzlich gibt es in Datablist „Processor“, die deine Daten vor dem Abgleich normalisieren. Wenn du auf URLs deduplizierst, nimm URL, bei Emails nimm Emails, usw.

    Der Email-Processor matcht z. B. diese beiden Adressen als gleich: john@datablist.com und john+spam@datablist.com.

  5. Starte den Duplikate-Check. Datablist verarbeitet jetzt deine Daten so, als wäre jede einzelne Email im Feld „Emails“ ein eigener Vergleichswert. Records, die mindestens eine Email teilen (oder gemäß Distance Algorithm ähnlich sind), werden als potenzielle Duplikate gruppiert.

    Duplicates Preview
    Duplicates Preview
  6. Prüfe die gefundenen Duplikat-Gruppen sorgfältig. Du siehst genau, über welche gemeinsamen Werte die Matches zustande kommen. In unserem „Emails“-Beispiel würden Record 1 und 3 wahrscheinlich zusammen gruppiert (wegen „john.doe@example.com“). Record 1 und 2 würden ebenfalls zusammen auftauchen (wegen „jane.doe@example.com“).

Schritt 3: Konflikte lösen und Duplikate zusammenführen

Wenn du die Duplikat-Gruppen hast, geht es im nächsten Schritt darum festzulegen, wie Datensätze gemerged werden sollen – besonders im Multi-Value-Feld und bei allen anderen möglichen Konflikten.

  1. Für jede Duplikat-Gruppe hebt Datablist Felder hervor, in denen sich die Werte unterscheiden – das sind conflicting properties. Das können z. B. Telefonnummern, E-Mail-Adressen (wenn du auf Emails dedupliziert hast) oder Job Titles sein.

  2. Für das Multi-Value-Feld (in unserem Beispiel „Emails“) hast du spezielle Merge-Optionen:

    • Combine Values: Meist die beste Option. Datablist sammelt alle eindeutigen Werte aus den Duplikaten und führt sie zu einem Wert zusammen (mit einem Trennzeichen). Beispiel: Wenn du Record 1 (john.doe@example.com; jane.doe@example.com; info@example.com) und Record 3 (john.doe@example.com; marketing@example.com) mergest, bekommst du im Master Record: john.doe@example.com; jane.doe@example.com; info@example.com; marketing@example.com.

    • Drop Conflicting Values: Wenn ein Datensatz klar „besser“ bzw. vollständiger ist und du den anderen verwerfen willst, wähle „Drop conflicting values...“.

    Select a master record

    Du kannst außerdem steuern, wie Datablist den Master Record auswählt. Beim Mergen behält Datablist einen Datensatz, aktualisiert dessen Felder und löscht die anderen – am Ende bleibt also nur ein Record übrig.

    Welche Zeile der Master Record ist, legst du über Regeln fest:

    • Most Complete: Nimmt den Datensatz mit den meisten ausgefüllten Feldern.
    • Last Updated: Nimmt den zuletzt geänderten Datensatz.
    • First Created: Nimmt den ältesten Datensatz basierend auf dem Erstellungsdatum.
    • Highest Value: Nimmt den Datensatz mit dem höchsten Wert in einem ausgewählten Feld. Bei Gleichstand wird der neueste gewählt.
    • Lowest Value: Nimmt den Datensatz mit dem niedrigsten Wert in einem ausgewählten Feld. Bei Gleichstand wird der neueste gewählt.
    • Matching Value: Nimmt den Datensatz, der in einem ausgewählten Feld einen bestimmten Wert enthält. Wenn keiner passt, werden sie nicht gemerged.
  3. Wenn du die Merge-Regeln für alle conflicting properties gesetzt hast, aktualisiere die Preview. So siehst du exakt, wie der gemergte Datensatz pro Gruppe aussehen wird. Achte besonders darauf, wie die mehreren Werte zusammengeführt wurden.

    Update Merging Result Preview
    Update Merging Result Preview
  4. Checke die Merge-Preview gründlich und stell sicher, dass das Ergebnis zu deinem Use Case passt. Wenn alles passt, kannst du mergen: Klicke auf „Auto-merge duplicates when possible“ oder merge einzelne Gruppen manuell, wenn du mehr Kontrolle brauchst.

    Successful Merging Preview
    Successful Merging Preview
  5. Nach dem Merge zeigt dir Datablist eine Zusammenfassung der ausgeführten Aktionen.

    Merging Done Screen
    Merging Done Screen

Zum Schluss kannst du deine bereinigte und deduplizierte Liste exportieren – jetzt mit konsolidierten Infos, selbst wenn vorher mehrere Werte in einem einzigen Feld gesteckt haben.

Export the Cleaned List
Export the Cleaned List

Wenn du diese Schritte befolgst, nutzt du Datablist’s „Multiple Values“-Feature optimal für fortgeschrittene Deduplication – genau dann, wenn wichtige Infos strukturiert als Multi-Value-Format in einem Feld gespeichert sind. Denk daran: Trennzeichen auf Semikolon standardisieren, dann klappt das Matching am zuverlässigsten.