Étend Pandas DataFrame avec une nouvelle méthode pour travailler avec des valeurs manquantes
Introduction
Ce package étend le Pandas DataFrame avec de nouvelles méthodes pour travailler avec des valeurs manquantes. La nouvelle méthode vit dans la classe d'extension manquanteMethods et est appelée manquante. Ces méthodes permettent de travailler avec des valeurs manquantes de manière plus intuitive.
Cette classe fournit plusieurs méthodes pour gérer les valeurs manquantes dans un dataframe. Voici une brève explication de chaque méthode:
- Number_Missing : renvoie le nombre total de valeurs manquantes dans le DataFrame.
- Number_Missing_By_Column : Renvoie le nombre de valeurs manquantes pour chaque colonne.
- Number_Complete : renvoie le nombre total de valeurs complètes (non manquantes) dans le dataframe.
- Number_Complete_By_Column : Renvoie le nombre de valeurs complètes pour chaque colonne.
- Impute_mean Entrez une valeur dans les valeurs manquantes du DataFrame en utilisant la moyenne de chaque colonne.
- Impute_median Entrée une valeur dans les valeurs manquantes du DataFrame à l'aide de la médiane de chaque colonne.
- Impute_Mode Entrez une valeur dans les valeurs manquantes du DataFrame à l'aide du mode de chaque colonne.
- Impute_knn (n_neighbors = 5) Entrez une valeur dans les valeurs manquantes du DataFrame à l'aide de l'algorithme K-Dearest Neighbors.
- manquant_value_heatmap génère une carte thermique montrant la distribution des valeurs manquantes dans le dataframe.
- drop_missing_rows (thresh = 0,5) supprime les lignes qui contiennent des valeurs manquantes supérieures au pourcentage spécifié.
- drop_missing_columns (thresh = 0,5) supprime les colonnes qui contiennent des valeurs manquantes supérieures au pourcentage spécifié.
- Missing_variable_summary : génère un tableau récapitulatif montrant le nombre et le pourcentage de valeurs manquantes pour chaque variable (colonne).
- manquant_case_summary : génère un tableau récapitulatif montrant le nombre et le pourcentage de valeurs manquantes pour chaque cas (ligne).
- manquant_variable_table : génère un tableau montrant la distribution des valeurs manquantes à travers les variables.
- manquant_case_table : génère un tableau montrant la distribution des valeurs manquantes entre les cas.
- Missing_variable_span : analyse les valeurs manquantes dans une variable sur une portée spécifiée et renvoie un dataframe résumant le pourcentage de valeurs manquantes et complètes.
- Missing_variable_run : identifie des exécutions de valeurs manquantes et complètes dans une variable spécifiée et renvoie un dataframe résumant leurs longueurs.
- sort_variables_by_missingness : trie les colonnes DataFrame en fonction du nombre de valeurs manquantes dans chaque colonne.
- create_shadow_matrix : crée une matrice d'ombre indiquant des valeurs manquantes avec une chaîne spécifiée.
- bind_shadow_matrix : lie le dataframe d'origine avec sa matrice d'ombre indiquant des valeurs manquantes.
- Missing_scan_count : compte les occurrences de valeurs spécifiées dans le dataframe et renvoie le nombre de variables.
- Missing_variable_plot : trace un graphique à barres horizontal montrant le nombre de valeurs manquantes pour chaque variable.
- Missing_case_plot : trace un histogramme montrant la distribution des valeurs manquantes entre les cas.
- Missing_variable_span_plot : trace un graphique à barres empilé montrant le pourcentage de valeurs manquantes et complètes sur une portée de répétition pour une variable spécifiée.
- Missing_upSetPlot : génère un tracé bouleversé pour visualiser les combinaisons de valeurs manquantes à travers les variables.
Ces méthodes fournissent des outils complets pour analyser et visualiser les valeurs manquantes dans un dataframe. Ils peuvent être utilisés pour mieux comprendre les modèles et la distribution des valeurs manquantes, ainsi que pour éclairer les stratégies de nettoyage et d'imputation des données.
Installation
Pour installer le package, vous pouvez utiliser PIP:
Usage
Pour utiliser le package, vous devez importer la classe MissingMethods à partir du module pandas_missing:
import missing_mga as missing
Ensuite, vous pouvez créer un dataframe et utiliser la méthode manquante pour accéder aux méthodes de traitement de la valeur manquantes:
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing () Cela renverra le nombre total de valeurs manquantes dans le dataframe.
Contributif
Si vous avez des suggestions, des rapports de bogues ou des demandes de fonctionnalités, veuillez ouvrir un problème sur le référentiel GitHub. Nous accueillons les contributions de la communauté et les demandes de traction sont toujours appréciées.
Licence
Ce package est concédé sous licence MIT. Voir la licence
Remerciements
Ce package a été inspiré par le package Naniar dans R, qui fournit des fonctionnalités similaires pour travailler avec des valeurs manquantes dans les trames de données. Nous tenons à remercier les auteurs de Naniar pour leur travail et d'avoir fourni une ressource précieuse pour la communauté des sciences des données.
Références
- naniar: structures de données, résumés et visualisations pour les données manquantes
- Gestion des données manquantes dans Pandas
- Travailler avec des données manquantes dans Pandas
Métrique
Vous pouvez trouver les métriques de ce package dans le lien suivant: Métriques
Contact
Si vous avez des questions ou avez besoin d'aide supplémentaire, veuillez contacter le maintien du package: [email protected]