missing_mga Download - missing_mga Code source Télécharger

missing_mga

Code Source AI

v1.1.3

Télécharger

Étend Pandas DataFrame avec une nouvelle méthode pour travailler avec des valeurs manquantes

Introduction

Ce package étend le Pandas DataFrame avec de nouvelles méthodes pour travailler avec des valeurs manquantes. La nouvelle méthode vit dans la classe d'extension manquanteMethods et est appelée manquante. Ces méthodes permettent de travailler avec des valeurs manquantes de manière plus intuitive.

Cette classe fournit plusieurs méthodes pour gérer les valeurs manquantes dans un dataframe. Voici une brève explication de chaque méthode:

Number_Missing : renvoie le nombre total de valeurs manquantes dans le DataFrame.
Number_Missing_By_Column : Renvoie le nombre de valeurs manquantes pour chaque colonne.
Number_Complete : renvoie le nombre total de valeurs complètes (non manquantes) dans le dataframe.
Number_Complete_By_Column : Renvoie le nombre de valeurs complètes pour chaque colonne.
Impute_mean Entrez une valeur dans les valeurs manquantes du DataFrame en utilisant la moyenne de chaque colonne.
Impute_median Entrée une valeur dans les valeurs manquantes du DataFrame à l'aide de la médiane de chaque colonne.
Impute_Mode Entrez une valeur dans les valeurs manquantes du DataFrame à l'aide du mode de chaque colonne.
Impute_knn (n_neighbors = 5) Entrez une valeur dans les valeurs manquantes du DataFrame à l'aide de l'algorithme K-Dearest Neighbors.
manquant_value_heatmap génère une carte thermique montrant la distribution des valeurs manquantes dans le dataframe.
drop_missing_rows (thresh = 0,5) supprime les lignes qui contiennent des valeurs manquantes supérieures au pourcentage spécifié.
drop_missing_columns (thresh = 0,5) supprime les colonnes qui contiennent des valeurs manquantes supérieures au pourcentage spécifié.
Missing_variable_summary : génère un tableau récapitulatif montrant le nombre et le pourcentage de valeurs manquantes pour chaque variable (colonne).
manquant_case_summary : génère un tableau récapitulatif montrant le nombre et le pourcentage de valeurs manquantes pour chaque cas (ligne).
manquant_variable_table : génère un tableau montrant la distribution des valeurs manquantes à travers les variables.
manquant_case_table : génère un tableau montrant la distribution des valeurs manquantes entre les cas.
Missing_variable_span : analyse les valeurs manquantes dans une variable sur une portée spécifiée et renvoie un dataframe résumant le pourcentage de valeurs manquantes et complètes.
Missing_variable_run : identifie des exécutions de valeurs manquantes et complètes dans une variable spécifiée et renvoie un dataframe résumant leurs longueurs.
sort_variables_by_missingness : trie les colonnes DataFrame en fonction du nombre de valeurs manquantes dans chaque colonne.
create_shadow_matrix : crée une matrice d'ombre indiquant des valeurs manquantes avec une chaîne spécifiée.
bind_shadow_matrix : lie le dataframe d'origine avec sa matrice d'ombre indiquant des valeurs manquantes.
Missing_scan_count : compte les occurrences de valeurs spécifiées dans le dataframe et renvoie le nombre de variables.
Missing_variable_plot : trace un graphique à barres horizontal montrant le nombre de valeurs manquantes pour chaque variable.
Missing_case_plot : trace un histogramme montrant la distribution des valeurs manquantes entre les cas.
Missing_variable_span_plot : trace un graphique à barres empilé montrant le pourcentage de valeurs manquantes et complètes sur une portée de répétition pour une variable spécifiée.
Missing_upSetPlot : génère un tracé bouleversé pour visualiser les combinaisons de valeurs manquantes à travers les variables.

Ces méthodes fournissent des outils complets pour analyser et visualiser les valeurs manquantes dans un dataframe. Ils peuvent être utilisés pour mieux comprendre les modèles et la distribution des valeurs manquantes, ainsi que pour éclairer les stratégies de nettoyage et d'imputation des données.

Installation

Pour installer le package, vous pouvez utiliser PIP:

pip install missing-mga

Usage

Pour utiliser le package, vous devez importer la classe MissingMethods à partir du module pandas_missing:

 import missing_mga as missing

Ensuite, vous pouvez créer un dataframe et utiliser la méthode manquante pour accéder aux méthodes de traitement de la valeur manquantes:

 import pandas as pd

# Create a DataFrame
data = {
    'A' : [ 1 , 2 , None , 4 , 5 ],
    'B' : [ None , 2 , 3 , 4 , 5 ],
    'C' : [ 1 , 2 , 3 , 4 , 5 ],
    'D' : [ 1 , 2 , 3 , 4 , 5 ],    
}

df = pd . DataFrame ( data )

# Use the missing method to access the missing value handling methods
df . missing . number_missing ()

Cela renverra le nombre total de valeurs manquantes dans le dataframe.

Contributif

Si vous avez des suggestions, des rapports de bogues ou des demandes de fonctionnalités, veuillez ouvrir un problème sur le référentiel GitHub. Nous accueillons les contributions de la communauté et les demandes de traction sont toujours appréciées.

Licence

Ce package est concédé sous licence MIT. Voir la licence

Remerciements

Ce package a été inspiré par le package Naniar dans R, qui fournit des fonctionnalités similaires pour travailler avec des valeurs manquantes dans les trames de données. Nous tenons à remercier les auteurs de Naniar pour leur travail et d'avoir fourni une ressource précieuse pour la communauté des sciences des données.

Références

naniar: structures de données, résumés et visualisations pour les données manquantes
Gestion des données manquantes dans Pandas
Travailler avec des données manquantes dans Pandas