HomeWissen Stichwortverzeichnis Tags

Datenbereinigung

Einfache Sprache

Zur Datenbereinigung gehören alle Verfahren, mit denen Datenfehler entfernt oder korrigiert werden können. Es gibt zwei Kategorien von Fehlern: Fehlende Werte und Rauschende Daten

Fehlende Werte

Es folgen ausgewählte Methoden fehlende Werte in Datensätze zu begegnen. Alle sind in eigenen Hinsicht problematisch und sollten mit Vorsicht angewendet werden.

Idee Beschreibugn Pro Contra
Ignorieren Spalten oder Zeilen mit fehlenden Werten werden entfernt. Schnell Beobacht-ungen gehen verloren
Manuell Ausfüllen Werte die fehlen werden von Experten manuell ausgefüllt Alle Beobacht-ungen bleiben erhalten Teuer und Zeitaufwendig.
Globale Konstante Fehlende Werte durch eine Konstante (z.B. 9999 oder “missing”) ersetzen. Kann die Verteilung verzerren (Bias).
Tendenz Fehlende Werte durch Tendenz (z.B. Mittelwert) ersetzen. Kann die Verteilung verzerren (Bias).
Interpolation Z.B. mit einer Lineare Regression
Induction
Matrix Factorization

Rauschende Daten

Gründe für Rauschen in den Daten können sein:

Idee Beschreibugn Pro Contra
Binning
Regression

Besonders für Zeitreihen gibt es folgende Methoden

Idee Beschreibugn Pro Contra
Home: