Datenbereinigung
Einfache Sprache
Zur Datenbereinigung gehören alle Verfahren, mit denen Datenfehler entfernt oder korrigiert werden können. Es gibt zwei Kategorien von Fehlern: Fehlende Werte und Rauschende Daten
Fehlende Werte
Es folgen ausgewählte Methoden fehlende Werte in Datensätze zu begegnen. Alle sind in eigenen Hinsicht problematisch und sollten mit Vorsicht angewendet werden.
Idee | Beschreibugn | Pro | Contra |
---|---|---|---|
Ignorieren | Spalten oder Zeilen mit fehlenden Werten werden entfernt. | Schnell | Beobacht-ungen gehen verloren |
Manuell Ausfüllen | Werte die fehlen werden von Experten manuell ausgefüllt | Alle Beobacht-ungen bleiben erhalten | Teuer und Zeitaufwendig. |
Globale Konstante | Fehlende Werte durch eine Konstante (z.B. 9999 oder “missing”) ersetzen. | Kann die Verteilung verzerren (Bias). | |
Tendenz | Fehlende Werte durch Tendenz (z.B. Mittelwert) ersetzen. | Kann die Verteilung verzerren (Bias). | |
Interpolation | Z.B. mit einer Lineare Regression | ||
Induction | |||
Matrix Factorization |
Rauschende Daten
Gründe für Rauschen in den Daten können sein:
- Weißes Rauschen
- Ausreißer Generelle Lösungen sind z.B.
Idee | Beschreibugn | Pro | Contra |
---|---|---|---|
Binning | |||
Regression |
Besonders für Zeitreihen gibt es folgende Methoden
Idee | Beschreibugn | Pro | Contra |
---|---|---|---|
Home: