
Edamame的灵感来自Pandas Profiling,Pycaret和Yellowbrick等包装。 EDAMAME的目的是提供用户友好的功能,以在数据集上进行探索性数据分析(EDA),以及用于培训和分析模型的回归或分类问题的电池。
要安装软件包,
pip install edamameEdamame软件包在Jupyter音符中正确工作。您可以在“ Edamame-Documentation”页面上找到软件包的文档。
该软件包由三个模块组成:EDA,执行探索性数据分析;以及回归器和分类器,分别处理机器学习模型的回归和分类。要查看Edamame软件包用途的示例,您可以在存储库中查看示例文件夹。
import edamame . eda as edaEDA模块提供了广泛的功能,用于在数据集上执行探索性数据分析(EDA)。使用此模块,您可以轻松地探索和操纵数据,进行描述性统计信息,相关分析并准备数据以进行机器学习。 “ EDA”模块提供以下功能:
数据探索和操纵功能:
描述性统计函数:
相关分析功能:
有用的功能:
from edamame . regressor import TrainRegressor , regression_metricsTrainRegressor类旨在用作培训和处理回归模型的管道。
该类提供了几种拟合不同回归模型,计算模型指标,保存和加载模型的方法,并使用Automl根据性能指标选择最佳模型。这些方法包括:
使用save_model方法保存模型后,我们可以使用EDA模块的LOAD_MODEL函数上传模型,并使用Regression_Metrics函数评估其在新数据上的性能。
from edamame . regressor import RegressorDiagnose回归诊断类旨在诊断回归模型并分析其性能。该类提供了几种诊断和分析回归模型性能的方法。这些方法包括:
from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf ) from edamame . classifier import TrainClassifierTrainclassifier类旨在用作培训和处理层化模型的管道。
该类提供了几种拟合不同回归模型,计算模型指标,保存和加载模型的方法,并使用Automl根据性能指标选择最佳模型。这些方法包括:
使用save_model方法保存模型后,我们可以使用EDA模块的LOAD_MODEL函数上传模型,并使用ClassIfier_Metrics函数在新数据上评估其性能。
from edamame . classifier import classifier_metrics from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )