Erweitert Pandas DataFrame mit einer neuen Methode, um mit fehlenden Werten zu arbeiten
Einführung
Dieses Paket erweitert den PANDAS -Datenframe mit neuen Methoden, um mit fehlenden Werten zu arbeiten. Die neue Methode lebt in der Erweiterungsklasse vermisste Methoden und wird als vermisst bezeichnet. Diese Methoden ermöglicht es, mit fehlenden Werten intuitiver zu arbeiten.
Diese Klasse bietet verschiedene Methoden zum Umgang mit fehlenden Werten in einem Datenrahmen. Hier ist eine kurze Erklärung für jede Methode:
- Number_miss : Gibt die Gesamtzahl der fehlenden Werte im Datenrahmen zurück.
- number_missing_by_column : Gibt die Anzahl der fehlenden Werte für jede Spalte zurück.
- Number_Complete : Gibt die Gesamtzahl der vollständigen (Nicht-Missing-Werte) im DataFrame zurück.
- Number_complete_by_column : Gibt die Anzahl der vollständigen Werte für jede Spalte zurück.
- Impute_Mean Eingibt einen Wert in den fehlenden Werten des Datenrahmens mit dem Mittelwert jeder Spalte.
- Impute_Median geben einen Wert in die fehlenden Werte des Datenrahmens mit dem Median jeder Spalte ein.
- Impute_Mode Eingibt einen Wert in den fehlenden Werten des Datenrahmens mit dem Modus jeder Spalte.
- Impute_Knn (N_Neighbors = 5) Geben Sie einen Wert in die fehlenden Werte des Datenrahmens mit dem Algorithmus K-Nearest-Nachbarn ein.
- Missing_Value_heatmap erzeugt eine Wärmemap, die die Verteilung der fehlenden Werte im Datenrahmen zeigt.
- Drop_missing_rows (Thresh = 0,5) löscht die Zeilen, die fehlende Werte über dem angegebenen Prozentsatz enthalten.
- Drop_missing_columns (Thresh = 0,5) löscht die Spalten, die fehlende Werte über dem angegebenen Prozentsatz enthalten.
- Missing_Variable_Summary : Generiert eine Zusammenfassungstabelle, die die Anzahl und den Prozentsatz der fehlenden Werte für jede Variable (Spalte) zeigt.
- Missing_case_Summary : Generiert eine Zusammenfassungstabelle, die die Anzahl und den Prozentsatz der fehlenden Werte für jeden Fall (Zeile) zeigt.
- Missing_variable_table : Erzeugt eine Tabelle, die die Verteilung fehlender Werte über Variablen hinweg zeigt.
- Missing_case_Table : Generiert eine Tabelle, die die Verteilung der fehlenden Werte über Fälle hinweg zeigt.
- Missing_Variable_span : Analysiert die fehlenden Werte in einer Variablen über eine bestimmte Zeitspanne und gibt einen Datenrahmen zurück, in dem der Prozentsatz der fehlenden und vollständigen Werte zusammengefasst ist.
- Missing_Variable_run : Identifiziert die Ausführungen von fehlenden und vollständigen Werten in einer bestimmten Variablen und gibt einen Datenrahmen zurück, in dem die Längen zusammengefasst sind.
- SORT_VARIABLE_BY_MISSINGNESS : Sortiert die DataFrame -Spalten basierend auf der Anzahl der fehlenden Werte in jeder Spalte.
- create_shadow_matrix : Erstellt eine Schattenmatrix, die fehlende Werte mit einer angegebenen Zeichenfolge angibt.
- BIND_SHADOW_MATRIX : Bindet den ursprünglichen Datenrahmen mit der Schattenmatrix, die fehlende Werte anzeigt.
- Missing_Scan_Count : Zählungen angegebener Werte im Datenrahmen und gibt die Zählungen pro Variable zurück.
- Missing_Variable_Plot : Darstellung eines horizontalen Balkendiagramms, das die Anzahl der fehlenden Werte für jede Variable zeigt.
- Missing_case_Plot : Darstellung eines Histogramms, das die Verteilung fehlender Werte über Fälle zeigt.
- Missing_Variable_span_Plot : Darstellung Ein gestapeltes Balkendiagramm zeigt den Prozentsatz der fehlenden und vollständigen Werte über eine Wiederholungsspanne für eine angegebene Variable.
- Missing_UPSETPLOT : Erzeugt ein verärgertes Diagramm zur Visualisierung der Kombinationen von fehlenden Werten über Variablen hinweg.
Diese Methoden bieten umfassende Tools zur Analyse und Visualisierung fehlender Werte in einem Datenrahmen. Sie können verwendet werden, um Einblicke in die Muster und Verteilung fehlender Werte zu erhalten sowie Datenreinigung und Imputationsstrategien zu informieren.
Installation
Um das Paket zu installieren, können Sie PIP verwenden:
Verwendung
Um das Paket zu verwenden, müssen Sie die Missenmethods -Klasse aus dem Modul pandas_missing importieren:
import missing_mga as missing
Anschließend können Sie einen Datenrahmen erstellen und die fehlende Methode verwenden, um auf die fehlenden Mehrwerthandhabungsmethoden zuzugreifen:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () Dadurch wird die Gesamtzahl der fehlenden Werte im Datenrahmen zurückgegeben.
Beitragen
Wenn Sie Vorschläge, Fehlerberichte oder Feature -Anfragen haben, öffnen Sie bitte ein Problem im GitHub -Repository. Wir begrüßen Beiträge aus der Community und ziehen Anfragen immer geschätzt.
Lizenz
Dieses Paket ist unter der MIT -Lizenz lizenziert. Siehe die Lizenz
Anerkennung
Dieses Paket wurde vom Naniar -Paket in R inspiriert, das ähnliche Funktionen für die Arbeit mit fehlenden Werten in Datenrahmen bietet. Wir möchten den Autoren von Naniar für ihre Arbeit und für die Bereitstellung einer wertvollen Ressource für die Datenwissenschaftsgemeinschaft danken.
Referenzen
- Naniar: Datenstrukturen, Zusammenfassungen und Visualisierungen für fehlende Daten
- Umgang mit fehlenden Daten in Pandas
- Arbeiten mit fehlenden Daten in Pandas
Metriken
Sie finden die Metriken dieses Pakets im folgenden Link: Metriken
Kontakt
Wenn Sie Fragen haben oder weitere Unterstützung benötigen, wenden Sie sich bitte an den Paketwarter: [email protected]