
Edamame은 Pandas-Profiling, Pycaret 및 Yellowbrick과 같은 패키지에서 영감을 얻었습니다. Edamame의 목표는 데이터 세트에서 EDA (Exploratory Data Analysis)를 수행하고 회귀 또는 분류 문제를위한 모델 배터리 교육 및 분석을위한 사용자 친화적 인 기능을 제공하는 것입니다.
패키지를 설치하려면
pip install edamameEdamame 패키지는 Jupyter-Notebook 내에서 올바르게 작동합니다. Edamame-Documentation 페이지에서 패키지 문서를 찾을 수 있습니다.
패키지는 세 가지 모듈로 구성됩니다. EDA는 탐색 적 데이터 분석을 수행합니다. 회귀 및 분류를위한 기계 학습 모델의 교육을 처리하는 회귀 및 분류기. Edamame 패키지의 사용의 예를 보려면 저장소의 예제 폴더를 확인할 수 있습니다.
import edamame . eda as edaEDA 모듈은 데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하기위한 광범위한 기능을 제공합니다. 이 모듈을 사용하면 데이터를 쉽게 탐색하고 조작하고 설명 통계를 수행하고 상관 관계 분석을 수행하며 기계 학습을위한 데이터를 준비 할 수 있습니다. "EDA"모듈은 다음과 같은 기능을 제공합니다.
데이터 탐색 및 조작 기능 :
설명 통계 기능 :
상관 관계 분석 기능 :
유용한 기능 :
from edamame . regressor import TrainRegressor , regression_metricsTrainregressor 클래스는 회귀 모델 교육 및 처리를위한 파이프 라인으로 사용되도록 설계되었습니다.
이 클래스는 다양한 회귀 모델, 컴퓨팅 모델 메트릭, 모델 저장 및로드 모델을 장착하고 Automl을 사용하여 성능 메트릭을 기반으로 최상의 모델을 선택하는 몇 가지 방법을 제공합니다. 이 방법에는 다음이 포함됩니다.
Save_Model 메소드가있는 모델을 저장 한 후 EDA 모듈의 Load_Model 함수를 사용하여 모델을 업로드하고 regression_metrics 함수를 사용하여 새로운 데이터에 대한 성능을 평가할 수 있습니다.
from edamame . regressor import RegressorDiagnoseRegressOrdiancinose 클래스는 회귀 모델을 진단하고 성능을 분석하도록 설계되었습니다. 이 클래스는 회귀 모델의 성능을 진단하고 분석하는 몇 가지 방법을 제공합니다. 이 방법에는 다음이 포함됩니다.
from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf ) from edamame . classifier import TrainClassifierTrainclassifier 클래스는 훈련 및 처리 클래스 화 모델을위한 파이프 라인으로 사용되도록 설계되었습니다.
이 클래스는 다양한 회귀 모델, 컴퓨팅 모델 메트릭, 모델 저장 및로드 모델을 장착하고 Automl을 사용하여 성능 메트릭을 기반으로 최상의 모델을 선택하는 몇 가지 방법을 제공합니다. 이 방법에는 다음이 포함됩니다.
Save_Model 메소드로 모델을 저장 한 후 EDA 모듈의 Load_Model 함수를 사용하여 모델을 업로드하고 Classifier_Metrics 함수를 사용하여 새로운 데이터에 대한 성능을 평가할 수 있습니다.
from edamame . classifier import classifier_metrics from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )