edamame 다운로드 edamame 소스 코드 다운로드

edamame

AI 소스 코드

1.0.0

다운로드

에다메

에다메
기능
EDA 모듈
회귀 모듈
- 예:
분류기 모듈
- 예:
토 도스

Edamame은 Pandas-Profiling, Pycaret 및 Yellowbrick과 같은 패키지에서 영감을 얻었습니다. Edamame의 목표는 데이터 세트에서 EDA (Exploratory Data Analysis)를 수행하고 회귀 또는 분류 문제를위한 모델 배터리 교육 및 분석을위한 사용자 친화적 인 기능을 제공하는 것입니다.

패키지를 설치하려면

 pip install edamame

Edamame 패키지는 Jupyter-Notebook 내에서 올바르게 작동합니다. Edamame-Documentation 페이지에서 패키지 문서를 찾을 수 있습니다.

기능

패키지는 세 가지 모듈로 구성됩니다. EDA는 탐색 적 데이터 분석을 수행합니다. 회귀 및 분류를위한 기계 학습 모델의 교육을 처리하는 회귀 및 분류기. Edamame 패키지의 사용의 예를 보려면 저장소의 예제 폴더를 확인할 수 있습니다.

EDA 모듈

 import edamame . eda as eda

EDA 모듈은 데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하기위한 광범위한 기능을 제공합니다. 이 모듈을 사용하면 데이터를 쉽게 탐색하고 조작하고 설명 통계를 수행하고 상관 관계 분석을 수행하며 기계 학습을위한 데이터를 준비 할 수 있습니다. "EDA"모듈은 다음과 같은 기능을 제공합니다.

데이터 탐색 및 조작 기능 :
- 치수 :이 함수는 전달 된 판다 데이터 프레임의 행 수와 열을 표시합니다.
- 식별 _types : 각 열의 데이터 유형을 식별하십시오.
- View_Cardinality : 각 범주형 열에서 고유 한 값의 수를 봅니다.
- modify_cardinality : 열에서 고유 한 값 수를 수정하십시오.
- 누락 : 데이터 세트에 누락 된 데이터가 있는지 확인하십시오.
- handling_missing : 데이터 세트에서 결 측값을 교체하거나 제거합니다.
- drop_columns : 데이터 세트에서 특정 열을 제거합니다.
- num_to_categorical : 함수는 열이 "객체"로 변환 된 상태에서 데이터 프레임을 반환합니다.
- 상호 작용 :이 기능은 산점도로 수치 열 사이의 관계를 분석하기위한 대화식 플롯을 표시합니다.
- 검사 :이 함수는 대상 변수의 뚜렷한 기본성을 기반으로 변수의 분포를 분석하기위한 대화식 플롯을 표시합니다.
- split_and_scaling : 함수는 두 개의 pandas dataframes를 반환합니다. 회귀기 행렬 X에는 모델의 모든 예측 변수가 포함되어 있으며, 시리즈 y에는 응답 변수의 값이 포함됩니다.
설명 통계 기능 :
- Spection_Diptribution : 함수는 숫자 및 객체 열로 나눈 팬더 데이터 프레임에 적용된 설명 () 메소드의 결과를 표시합니다.
- plot_categorical : 함수는 범주 형 변수에 대한 일련의 테이블과 플롯을 반환합니다.
- plot_numerical : 함수는 숫자 변수에 대한 일련의 테이블과 플롯을 반환합니다.
- num_variable_study : 그는 전달 된 변수 col의 다음 변환을 표시합니다 : log (x), sqrt (x), x^2, box-cox, 1/x.
상관 관계 분석 기능 :
- CORRELATION_PEARSON : 함수는 열 쌍 사이의 피어슨의 상관 관계를 수행합니다.
- Correlation_categorical :이 함수는 데이터 세트의 범주 형 변수 간의 카이-제곱 테스트를 수행합니다.
- Correlation_phik : 모든 열의 쌍 간의 phik 상관 계수를 계산합니다 (종이 링크).
유용한 기능 :
- load_model : 함수로드 피클 형식으로 저장된 모델을로드합니다.
- 설정 : 함수는 다음 요소를 반환합니다. x_train, y_train, x_test, y_test.
- 스케일링 : 함수는 정규화/표준화 된 행렬을 반환합니다.
- OHE : 함수는 하나의 인코딩을 사용하여 변환 된 입력으로 전달 된 Numpy 배열을 반환합니다.

회귀 모듈

 from edamame . regressor import TrainRegressor , regression_metrics

Trainregressor 클래스는 회귀 모델 교육 및 처리를위한 파이프 라인으로 사용되도록 설계되었습니다.

이 클래스는 다양한 회귀 모델, 컴퓨팅 모델 메트릭, 모델 저장 및로드 모델을 장착하고 Automl을 사용하여 성능 메트릭을 기반으로 최상의 모델을 선택하는 몇 가지 방법을 제공합니다. 이 방법에는 다음이 포함됩니다.

선형 : 선형 회귀 모델을 훈련 데이터에 맞습니다.
LASSO : LASSO 회귀 모델을 교육 데이터에 맞습니다.
Ridge : Ridge 회귀 모델을 교육 데이터에 맞습니다.
트리 : 의사 결정 트리 회귀 모델을 교육 데이터에 맞습니다.
random_forest : 랜덤 포리스트 회귀 모델을 훈련 데이터에 맞습니다.
XGBOOST : XGBoost 회귀 모델을 교육 데이터에 맞습니다.
Auto_ml : Automl을 사용하여 성능 메트릭을 기반으로 최상의 모델을 선택합니다.
Model_Metrics : 각 훈련 된 모델의 성능 메트릭을 계산하고 인쇄합니다.
save_model : 훈련 된 모델을 파일에 저장합니다.

Save_Model 메소드가있는 모델을 저장 한 후 EDA 모듈의 Load_Model 함수를 사용하여 모델을 업로드하고 regression_metrics 함수를 사용하여 새로운 데이터에 대한 성능을 평가할 수 있습니다.

 from edamame . regressor import RegressorDiagnose

RegressOrdiancinose 클래스는 회귀 모델을 진단하고 성능을 분석하도록 설계되었습니다. 이 클래스는 회귀 모델의 성능을 진단하고 분석하는 몇 가지 방법을 제공합니다. 이 방법에는 다음이 포함됩니다.

계수 : 회귀 모델의 계수를 계산하고 인쇄합니다.
random_forest_fi : 랜덤 포레스트 회귀 모델의 기능 중요도를 표시합니다.
random_forest_fi : xgboost 회귀 모델의 기능 중요도를 표시합니다.
prediction_error : 테스트 데이터에서 회귀 모델의 예측 오류를 계산하고 인쇄합니다.
restual_plot : 회귀 모델에 대한 잔류 플롯을 생성하고 표시합니다.
QQPlot : 회귀 모델에 대한 QQ 플롯을 생성하고 표시합니다.

예:

 from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf )

분류기 모듈

 from edamame . classifier import TrainClassifier

Trainclassifier 클래스는 훈련 및 처리 클래스 화 모델을위한 파이프 라인으로 사용되도록 설계되었습니다.

이 클래스는 다양한 회귀 모델, 컴퓨팅 모델 메트릭, 모델 저장 및로드 모델을 장착하고 Automl을 사용하여 성능 메트릭을 기반으로 최상의 모델을 선택하는 몇 가지 방법을 제공합니다. 이 방법에는 다음이 포함됩니다.

물류 : 교육 데이터에 물류 모델에 맞습니다.
Gaussian_NB : Gaussina Naive Bayes 모델에 교육 데이터에 적합합니다.
KNN : K-NAREARSE 이웃 분류 모델에 교육 데이터에 적합합니다.
트리 : 의사 결정 트리 분류 모델을 교육 데이터에 맞습니다.
random_forest : 랜덤 포리스트 분류 모델에 교육 데이터에 적합합니다.
XGBOOST : XGBOOST 분류 모델을 교육 데이터에 맞습니다.
- SVM : 지원 벡터 분류 모델을 교육 데이터에 맞습니다.
Auto_ml : Automl을 사용하여 성능 메트릭을 기반으로 최상의 모델을 선택합니다.
Model_Metrics : 각 훈련 된 모델의 성능 메트릭을 계산하고 인쇄합니다.
save_model : 훈련 된 모델을 파일에 저장합니다.

Save_Model 메소드로 모델을 저장 한 후 EDA 모듈의 Load_Model 함수를 사용하여 모델을 업로드하고 Classifier_Metrics 함수를 사용하여 새로운 데이터에 대한 성능을 평가할 수 있습니다.

 from edamame . classifier import classifier_metrics

예:

 from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )