PANDASデータフレームは、欠損値で作業する新しい方法で拡張します
導入
このパッケージは、欠損値で動作する新しい方法でPandasデータフレームを拡張します。新しいメソッドは、拡張機能クラスMissingMethodsに存在し、Missingと呼ばれます。この方法は、より直感的な方法で欠損値で作業することができます。
このクラスは、データフレームで欠損値を処理するためのいくつかの方法を提供します。各方法の簡単な説明は次のとおりです。
- number_missing :データフレームの欠損値の総数を返します。
- number_missing_by_column :各列の欠損値の数を返します。
- number_complete :データフレームの完全な(非混乱)値の総数を返します。
- number_complete_by_column :各列の完全な値の数を返します。
- Impute_mean各列の平均を使用して、データフレームの欠損値に値を入力します。
- Impute_Median各列の中央値を使用して、データフレームの欠損値に値を入力します。
- Inpute_Mode各列のモードを使用して、データフレームの欠損値に値を入力します。
- Inpute_knn(n_neighbors = 5) k-nearest Neighborsアルゴリズムを使用して、データフレームの欠損値に値を入力します。
- Missing_Value_HeatMapデータフレーム内の欠損値の分布を示すヒートマップが生成されます。
- drop_missing_rows(threst = 0.5)は、指定された割合より上の欠損値を含む行を削除します。
- drop_missing_columns(thresh = 0.5)は、指定された割合より上の欠損値を含む列を削除します。
- Missing_variable_summary :各変数(列)の欠損値のカウントと割合を示す要約表を生成します。
- Missing_case_summary :各ケース(行)の欠損値のカウントと割合を示す要約表を生成します。
- Missing_variable_table :変数間の欠損値の分布を示すテーブルを生成します。
- Missing_case_table :ケース全体で欠損値の分布を示すテーブルを生成します。
- Missing_variable_span :指定されたスパンにわたって変数内の欠損値を分析し、欠落した値と完全な値の割合を要約するデータフレームを返します。
- Missing_variable_run :指定された変数で欠落した値と完全な値の実行を識別し、長さを要約するデータフレームを返します。
- sort_variables_by_missingness :各列の欠損値の数に基づいてデータフレーム列をソートします。
- create_shadow_matrix :指定された文字列で欠損値を示すシャドウマトリックスを作成します。
- bind_shadow_matrix :元のデータフレームを、欠損値を示すシャドウマトリックスでバインドします。
- Missing_scan_count :データフレームで指定された値の発生をカウントし、変数ごとのカウントを返します。
- Missing_variable_plot :各変数の欠損値の数を示す水平バーチャートをプロットします。
- Missing_case_plot :ケース全体で欠損値の分布を示すヒストグラムをプロットします。
- Missing_variable_span_plot :指定された変数の繰り返しスパンにわたって欠落値と完全な値の割合を示す積み重ねられたバーチャートをプロットします。
- Missing_upsetPlot :変数全体の欠損値の組み合わせを視覚化する動揺プロットを生成します。
これらの方法は、データフレームの欠損値を分析および視覚化するための包括的なツールを提供します。それらを使用して、欠損値のパターンと分布に関する洞察を得るだけでなく、データのクリーニングと代入戦略を通知することもできます。
インストール
パッケージをインストールするには、PIPを使用できます。
使用法
パッケージを使用するには、pandas_missingモジュールからMissingMethodsクラスをインポートする必要があります。
import missing_mga as missing
次に、データフレームを作成し、欠落している方法を使用して、欠損値の処理方法にアクセスできます。
import pandas as pd
# Create a DataFrame
data = {
'A' : [ 1 , 2 , None , 4 , 5 ],
'B' : [ None , 2 , 3 , 4 , 5 ],
'C' : [ 1 , 2 , 3 , 4 , 5 ],
'D' : [ 1 , 2 , 3 , 4 , 5 ],
}
df = pd . DataFrame ( data )
# Use the missing method to access the missing value handling methods
df . missing . number_missing ()これにより、データフレームの欠損値の総数が返されます。
貢献
提案、バグレポート、または機能のリクエストがある場合は、GitHubリポジトリで問題を開いてください。私たちはコミュニティからの貢献を歓迎し、プルのリクエストは常に高く評価されています。
ライセンス
このパッケージは、MITライセンスの下でライセンスされています。ライセンスを参照してください
謝辞
このパッケージは、RのNaniarパッケージに触発され、データフレームの欠損値を使用するための同様の機能を提供します。 Naniarの著者たちの仕事と、データサイエンスコミュニティに貴重なリソースを提供してくれたことに感謝します。
参照
- NANIAR:欠落データのデータ構造、要約、および視覚化
- パンダの欠落データの処理
- パンダの欠落データを使用します
メトリック
このパッケージのメトリックは、次のリンクで見つけることができます:メトリック
接触
ご不明な点がございましたら、パッケージメンテナー([email protected])にお問い合わせください。