Kurz erklärt: Was sind Dubletten?

Kurz erklärt: Was sind Dubletten?
Der Duden definiert Dubletten als “doppelt vorhandenes Stück in einer Sammlung o. ä.”. Etwas ausführlicher und auch gleich deutlich komplizierter wird Wikipedia: “Datensatz in einer Datenbank, der redundant, d. h. mehrfach, vorhanden ist, dessen Redundanz aber aufgrund abweichender Schreibung nicht durch Prüfung auf gleiche Inhalte erkannt werden kann.“
In diesem „Kurz erklärt“ – Beitrag geht es um unabsichtlich erzeugte Duplikate in Adressdatenbanken – also mehrfach vorhandene Adressdatensätze.
Wie entstehen Dubletten?
Grundsätzlich gibt es drei Arten von Doppeleintragungen:
einfache Dubletten
absolut identischer Doppeleintrag in der Datenbank |
Intradubletten
Geringfügig abweichende Schreibweise oder sonstiger zuordenbarer Fehler |
versteckte Dubletten
Nicht auf den ersten Blick erkennbare doppelte Datensätze, deren Ursprung nicht im Unternehmen liegt. |
Entstehung durch versehentliche Kopie, Fehlanwendung der Software oder Fehler in der Software | Entstehung durch versehentliche Falscheingabe (z.B. Tippfehler, Eingabe an unterschiedlichen Touchpoints, Ortsteilname statt Gemeindenamen etc.) | Entstehung durch Namensänderung, Umzüge, Umfirmierung, Verschmelzung, Geschäftsnachfolge |
Gut von Standard-Software erkennbar | Können manchmal mit Standard-Dublettensoftware verhindert bzw. herausgefiltert werden | Können nur mit Hilfe einer Referenzdatenbank mit historisierte Veränderungsdaten im Rahmen einer Bereinigung gefunden werden |
Gibt’s ein Gegenmittel?
Ja! Am besten hilft eine gute Datenhygiene mit regelmäßiger Datenbereinigung.