
Edamameは、Pandas-Profiling、Pycaret、Yellowbrickなどのパッケージに触発されています。 oradamameの目標は、データセットで探索的データ分析(EDA)を実施するために、回帰または分類の問題のためのモデルのバッテリーのトレーニングと分析のために、ユーザーフレンドリーな機能を提供することです。
パッケージをインストールするには、
pip install edamame枝豆パッケージは、jupyter-notebook内で正しく機能します。 Packageのドキュメントは、adamame-documentationページで見つけることができます。
パッケージは3つのモジュールで構成されています。EDAは、探索的データ分析を実行します。回帰と分類のための機械学習モデルのトレーニングをそれぞれ処理するリグレッサーと分類器。 Edamameパッケージの使用例を確認するには、リポジトリの例フォルダーを確認できます。
import edamame . eda as edaEDAモジュールは、データセットで探索的データ分析(EDA)を実行するための幅広い機能を提供します。このモジュールを使用すると、データを簡単に調査および操作し、記述統計、相関分析を実施し、機械学習のためにデータを準備できます。 「EDA」モジュールは、次の機能を提供します。
データ探索と操作機能:
記述統計関数:
相関分析関数:
有用な機能:
from edamame . regressor import TrainRegressor , regression_metricsTrainRegressorクラスは、回帰モデルのトレーニングと処理のためのパイプラインとして使用するように設計されています。
このクラスは、さまざまな回帰モデル、モデルメトリックの計算、保存モデルとロードモデルをフィットし、パフォーマンスメトリックに基づいて最適なモデルを選択するためのいくつかの方法を提供します。これらの方法は次のとおりです。
save_modelメソッドを使用してモデルを保存した後、EDAモジュールのload_model関数を使用してモデルをアップロードし、 Regression_metrics関数を使用して新しいデータのパフォーマンスを評価できます。
from edamame . regressor import RegressorDiagnose回帰クラスは、回帰モデルを診断し、そのパフォーマンスを分析するように設計されています。このクラスは、回帰モデルのパフォーマンスを診断および分析するためのいくつかの方法を提供します。これらの方法は次のとおりです。
from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf ) from edamame . classifier import TrainClassifierTrainClassifierクラスは、粘着モデルのトレーニングと取り扱いのためのパイプラインとして使用されるように設計されています。
このクラスは、さまざまな回帰モデル、モデルメトリックの計算、保存モデルとロードモデルをフィットし、パフォーマンスメトリックに基づいて最適なモデルを選択するためのいくつかの方法を提供します。これらの方法は次のとおりです。
save_modelメソッドを使用してモデルを保存した後、EDAモジュールのload_model関数を使用してモデルをアップロードし、 classifier_metrics関数を使用して新しいデータのパフォーマンスを評価できます。
from edamame . classifier import classifier_metrics from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )