edamameダウンロード - edamameソースコードのダウンロード

edamame

AI ソースコード

1.0.0

ダウンロード

枝豆

枝豆
機能
EDAモジュール
リグレッサーモジュール
- 例：
分類子モジュール
- 例：
トドス

Edamameは、Pandas-Profiling、Pycaret、Yellowbrickなどのパッケージに触発されています。 oradamameの目標は、データセットで探索的データ分析（EDA）を実施するために、回帰または分類の問題のためのモデルのバッテリーのトレーニングと分析のために、ユーザーフレンドリーな機能を提供することです。

パッケージをインストールするには、

 pip install edamame

枝豆パッケージは、jupyter-notebook内で正しく機能します。 Packageのドキュメントは、adamame-documentationページで見つけることができます。

機能

パッケージは3つのモジュールで構成されています。EDAは、探索的データ分析を実行します。回帰と分類のための機械学習モデルのトレーニングをそれぞれ処理するリグレッサーと分類器。 Edamameパッケージの使用例を確認するには、リポジトリの例フォルダーを確認できます。

EDAモジュール

 import edamame . eda as eda

EDAモジュールは、データセットで探索的データ分析（EDA）を実行するための幅広い機能を提供します。このモジュールを使用すると、データを簡単に調査および操作し、記述統計、相関分析を実施し、機械学習のためにデータを準備できます。「EDA」モジュールは、次の機能を提供します。

データ探索と操作機能：
- 寸法：関数は、渡されたパンダデータフレームの行と列の数を表示します。
- 識別_types ：各列のデータ型を識別します。
- View_Cardinality ：各カテゴリ列の一意の値の数を表示します。
- modify_cardinality ：列の一意の値の数を変更します。
- 欠落：データセットに欠落データが存在するかどうかを確認します。
- handling_missing ：データセットの欠損値を交換または削除します。
- drop_columns ：データセットから特定の列を削除します。
- num_to_categorical ：関数は、列が「オブジェクト」に変換された状態でデータフレームを返します。
- 相互作用：関数は、数値列間の関係を散布図を分析するためのインタラクティブなプロットを表示します。
- 検査：この関数は、ターゲット変数の異なる枢機inalに基づいて変数の分布を分析するためのインタラクティブプロットを表示します。
- split_and_scaling ：関数は2つのPandasデータフレームを返します：Regressor Matrix xにはモデルのすべての予測因子が含まれ、シリーズyには応答変数の値が含まれます。
記述統計関数：
- describe_distribution ：関数は、数値列とオブジェクト列で割ったPandasデータフレームに適用されたdescribe（）メソッドの結果を表示します。
- plot_categorical ：関数は、カテゴリ変数のテーブルとプロットのシーケンスを返します。
- plot_numerical ：関数は、数値変数のテーブルとプロットのシーケンスを返します。
- num_variable_study ：he関数は、rog（x）、sqrt（x）、x^2、box-cox、1/xの渡された変数Colの次の変換を表示します。
相関分析関数：
- Correlation_Pearson ：関数は、列ペア間のピアソンの相関を実行します。
- correlation_categorical ：関数は、データセットのカテゴリ変数間の独立性のカイ二乗検定を実行します。
- Correlation_Phik ：列のすべてのペア間のPhik相関係数を計算します（紙リンク）。
有用な機能：
- load_model ：機能ロードモデルは、ピクルス形式で保存されています。
- セットアップ：関数は次の要素を返します：x_train、y_train、x_test、y_test。
- スケーリング：関数は、正規化/標準化されたマトリックスを返します。
- OHE ：関数は、1ホットのエンコードを使用して変換された入力として渡されたnumpyアレイを返します。

リグレッサーモジュール

 from edamame . regressor import TrainRegressor , regression_metrics

TrainRegressorクラスは、回帰モデルのトレーニングと処理のためのパイプラインとして使用するように設計されています。

このクラスは、さまざまな回帰モデル、モデルメトリックの計算、保存モデルとロードモデルをフィットし、パフォーマンスメトリックに基づいて最適なモデルを選択するためのいくつかの方法を提供します。これらの方法は次のとおりです。

線形：トレーニングデータに線形回帰モデルに適合します。
ラッソ：トレーニングデータにラッソ回帰モデルを適合させます。
リッジ：トレーニングデータにリッジ回帰モデルに適合します。
ツリー：トレーニングデータに決定ツリー回帰モデルに適合します。
Random_Forest ：トレーニングデータにランダムな森林回帰モデルに適合します。
xgboost ：xgboost回帰モデルをトレーニングデータに適合します。
Auto_ML ：Automlを使用して、パフォーマンスメトリックに基づいて最適なモデルを選択します。
Model_metrics ：各トレーニングモデルのパフォーマンスメトリックを計算および印刷します。
Save_Model ：訓練されたモデルをファイルに保存します。

save_modelメソッドを使用してモデルを保存した後、EDAモジュールのload_model関数を使用してモデルをアップロードし、 Regression_metrics関数を使用して新しいデータのパフォーマンスを評価できます。

 from edamame . regressor import RegressorDiagnose

回帰クラスは、回帰モデルを診断し、そのパフォーマンスを分析するように設計されています。このクラスは、回帰モデルのパフォーマンスを診断および分析するためのいくつかの方法を提供します。これらの方法は次のとおりです。

係数：回帰モデルの係数を計算および印刷します。
RANDAM_FOREST_FI ：ランダムフォレスト回帰モデルの機能の重要性プロットを表示します。
RANDAM_FOREST_FI ：XGBoost回帰モデルの機能の重要性プロットを表示します。
Prediction_Error ：テストデータの回帰モデルの予測エラーを計算および印刷します。
Listual_plot ：回帰モデルの残差プロットを作成および表示します。
QQPLOT ：回帰モデルのQQプロットを作成および表示します。

例：

 from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf )

分類子モジュール

 from edamame . classifier import TrainClassifier

TrainClassifierクラスは、粘着モデルのトレーニングと取り扱いのためのパイプラインとして使用されるように設計されています。

このクラスは、さまざまな回帰モデル、モデルメトリックの計算、保存モデルとロードモデルをフィットし、パフォーマンスメトリックに基づいて最適なモデルを選択するためのいくつかの方法を提供します。これらの方法は次のとおりです。

ロジスティック：トレーニングデータにロジスティックモデルを適合させます。
Gaussian_nb ：トレーニングデータにGaussinaナイーブベイズモデルに適合します。
KNN ：トレーニングデータにK-nearest Neighbors分類モデルに適合します。
ツリー：トレーニングデータに決定ツリー分類モデルに適合します。
Random_Forest ：トレーニングデータにランダムな森林分類モデルに適合します。
xgboost ：xgboost分類モデルをトレーニングデータに適合します。
- SVM ：トレーニングデータにサポートベクトル分類モデルを適合します。
Auto_ML ：Automlを使用して、パフォーマンスメトリックに基づいて最適なモデルを選択します。
Model_metrics ：各トレーニングモデルのパフォーマンスメトリックを計算および印刷します。
Save_Model ：訓練されたモデルをファイルに保存します。

save_modelメソッドを使用してモデルを保存した後、EDAモジュールのload_model関数を使用してモデルをアップロードし、 classifier_metrics関数を使用して新しいデータのパフォーマンスを評価できます。

 from edamame . classifier import classifier_metrics

例：

 from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )