
Edamame的靈感來自Pandas Profiling,Pycaret和Yellowbrick等包裝。 EDAMAME的目的是提供用戶友好的功能,以在數據集上進行探索性數據分析(EDA),以及用於培訓和分析模型的回歸或分類問題的電池。
要安裝軟件包,
pip install edamameEdamame軟件包在Jupyter音符中正確工作。您可以在“ Edamame-Documentation”頁面上找到軟件包的文檔。
該軟件包由三個模塊組成:EDA,執行探索性數據分析;以及回歸器和分類器,分別處理機器學習模型的回歸和分類。要查看Edamame軟件包用途的示例,您可以在存儲庫中查看示例文件夾。
import edamame . eda as edaEDA模塊提供了廣泛的功能,用於在數據集上執行探索性數據分析(EDA)。使用此模塊,您可以輕鬆地探索和操縱數據,進行描述性統計信息,相關分析並準備數據以進行機器學習。 “ EDA”模塊提供以下功能:
數據探索和操縱功能:
描述性統計函數:
相關分析功能:
有用的功能:
from edamame . regressor import TrainRegressor , regression_metricsTrainRegressor類旨在用作培訓和處理回歸模型的管道。
該類提供了幾種擬合不同回歸模型,計算模型指標,保存和加載模型的方法,並使用Automl根據性能指標選擇最佳模型。這些方法包括:
使用save_model方法保存模型後,我們可以使用EDA模塊的LOAD_MODEL函數上傳模型,並使用Regression_Metrics函數評估其在新數據上的性能。
from edamame . regressor import RegressorDiagnose回歸診斷類旨在診斷回歸模型並分析其性能。該類提供了幾種診斷和分析回歸模型性能的方法。這些方法包括:
from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf ) from edamame . classifier import TrainClassifierTrainclassifier類旨在用作培訓和處理層化模型的管道。
該類提供了幾種擬合不同回歸模型,計算模型指標,保存和加載模型的方法,並使用Automl根據性能指標選擇最佳模型。這些方法包括:
使用save_model方法保存模型後,我們可以使用EDA模塊的LOAD_MODEL函數上傳模型,並使用ClassIfier_Metrics函數在新數據上評估其性能。
from edamame . classifier import classifier_metrics from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )