Data Cleansing für die Genealogie Bemberg
Nach Abschluss der Übersetzungen der Genealogie Bemberg musste ich bei der Erstellung einiger Stammbäume sehr schnell feststellen, dass die Qualität der nicht zur unmittelbaren Familie gehörenden Personen, also der Daten der verschwägerten Familien, deutlich zu wünschen übrig ließ. Falsche, unvollständige, doppelte oder anderweitig fehlerhafte Daten in den Datensätzen und zum Teil inkonsistente Bezeichnungen führten zu fehlerhaften Auswertungen und damit zu falschen Darstellungen in den Stammbäumen. Aus diesem Grund habe ich mich entschlossen, für die Genealogie Bemberg eine konzentrierte Datenbereinigung, "neudeutsch" auch Data Cleaning, Data Cleansing oder Data Scrubbing genannt, durchzuführen.
Mit der Datenbereinigung habe ich Anfang Mai diesen Jahres begonnen und bis Anfang August täglich mehrere Stunden investiert. Der bisherige Arbeitsaufwand von mehr als 600 Stunden zeigt, dass die Datenbereinigung eine extrem zeitaufwändige Arbeit ist.
Es geht darum, Datenfehler zu identifizieren und dann Daten zu ändern, zu aktualisieren oder zu entfernen, um sie zu korrigieren, da im Idealfall jeder einzelne Datensatz überprüft werden muss.
Im Rahmen von Datenbereinigungsprojekten werden in der Regel folgende Arten von Problemen gelöst:
- Tippfehler und ungültige oder fehlende Daten. Die Datenbereinigung korrigiert verschiedene strukturelle Fehler in Datensätzen. Dazu gehören zum Beispiel Rechtschreibfehler und andere typografische Fehler, falsche numerische Einträge, Syntaxfehler und fehlende Werte, wie leere oder ungültige Felder, die Daten enthalten sollten.
- Inkonsistente Daten. Namen, Adressen und andere Attribute sind oft von System zu System unterschiedlich formatiert. So kann ein Datensatz beispielsweise die mittlere Initiale eines Kunden enthalten, ein anderer nicht. Auch Datenelemente wie Begriffe und Bezeichnungen können variieren. Datenbereinigung trägt dazu bei, dass die Daten konsistent sind, damit sie genau analysiert werden können.
- Doppelte Daten. Bei der Datenbereinigung werden doppelte Daten in Datensätzen identifiziert und mit Deduplizierungsmaßnahmen entweder entfernt oder zusammengeführt. Wenn zum Beispiel Daten aus zwei Systemen kombiniert werden, können doppelte Dateneinträge abgeglichen werden, um einzelne Datensätze zu erstellen.
- Irrelevante Daten. Einige Daten, zum Beispiel Ausreißer oder veraltete Einträge, sind für Analyseanwendungen möglicherweise nicht relevant und könnten deren Ergebnisse verfälschen. Durch Datenbereinigung werden redundante Daten aus den Datensätzen entfernt, wodurch Datenaufbereitung rationalisiert und die erforderliche Menge an Datenverarbeitungs- und Speicherressourcen reduziert wird.