edamame下载edamame源代码下载

edamame

Ai源码

1.0.0

下载

毛豆

毛豆
功能
EDA模块
回归器模块
- 例子：
分类器模块
- 例子：
戒酒

Edamame的灵感来自Pandas Profiling，Pycaret和Yellowbrick等包装。 EDAMAME的目的是提供用户友好的功能，以在数据集上进行探索性数据分析（EDA），以及用于培训和分析模型的回归或分类问题的电池。

要安装软件包，

 pip install edamame

Edamame软件包在Jupyter音符中正确工作。您可以在“ Edamame-Documentation”页面上找到软件包的文档。

功能

该软件包由三个模块组成：EDA，执行探索性数据分析；以及回归器和分类器，分别处理机器学习模型的回归和分类。要查看Edamame软件包用途的示例，您可以在存储库中查看示例文件夹。

EDA模块

 import edamame . eda as eda

EDA模块提供了广泛的功能，用于在数据集上执行探索性数据分析（EDA）。使用此模块，您可以轻松地探索和操纵数据，进行描述性统计信息，相关分析并准备数据以进行机器学习。 “ EDA”模块提供以下功能：

数据探索和操纵功能：
- 尺寸：该功能显示传递的熊猫数据框的行数和列的数量。
- 识别图：标识每列的数据类型。
- view_cardinality ：查看每个分类列中唯一值的数量。
- modify_cardinality ：修改列中唯一值的数量。
- 缺少：检查数据集中是否存在任何丢失的数据。
- andling_missing ：替换或删除数据集中的缺失值。
- drop_columns ：从数据集中删除特定列。
- num_to_categorical ：该函数返回一个数据框，其中列转换为“对象”。
- 相互作用：该函数显示一个交互式图，用于分析与散点图的数值列之间的关系。
- 检查：该函数显示了一个交互式图，用于根据目标变量的不同基础分析变量的分布。
- split_and_scaling ：函数返回两个pandas dataframes：回归矩阵X包含模型的所有预测指标，系列y包含响应变量的值。
描述性统计函数：
- Descript_distribution ：该函数显示了应用于PANDAS数据框的Dridend（）方法的结果，除以数值和对象列。
- plot_categorical ：该函数返回分类变量的表和图序列。
- plot_numerical ：该函数返回数值变量的表和图序列。
- num_variable_study ：他函数显示了传递的变量col的以下转换：log（x），sqrt（x），x^2，box-cox，1/x。
相关分析功能：
- CORTERELATION_PEARSON ：该函数执行列对之间的Pearson相关性。
- CORERELATION_CATEGIRALE ：该函数执行数据集的分类变量之间的独立性卡方检验。
- CORERELATION_PHIK ：计算所有列对之间的PHIK相关系数（纸链接）。
有用的功能：
- LOAD_MODEL ：功能加载以腌制格式保存的模型。
- 设置：函数返回以下元素：x_train，y_train，x_test，y_test。
- 缩放：函数返回归一化/标准化矩阵。
- OHE ：该函数返回传递的numpy阵列作为输入，使用一hot编码转换。

回归器模块

 from edamame . regressor import TrainRegressor , regression_metrics

TrainRegressor类旨在用作培训和处理回归模型的管道。

该类提供了几种拟合不同回归模型，计算模型指标，保存和加载模型的方法，并使用Automl根据性能指标选择最佳模型。这些方法包括：

线性：将线性回归模型拟合到训练数据。
拉索：将套索回归模型拟合到训练数据。
脊：将脊回归模型适合训练数据。
树：将决策树回归模型拟合到培训数据。
Random_forest ：将随机森林回归模型拟合到训练数据。
XGBoost ：将XGBoost回归模型拟合到训练数据。
AUTO_ML ：使用AUTOML根据性能指标选择最佳模型。
model_metrics ：计算和打印每个训练有素的模型的性能指标。
SAVE_MODEL ：将训练有素的模型保存到文件中。

使用save_model方法保存模型后，我们可以使用EDA模块的LOAD_MODEL函数上传模型，并使用Regression_Metrics函数评估其在新数据上的性能。

 from edamame . regressor import RegressorDiagnose

回归诊断类旨在诊断回归模型并分析其性能。该类提供了几种诊断和分析回归模型性能的方法。这些方法包括：

系数：计算和打印回归模型的系数。
Random_forest_fi ：显示随机森林回归模型的特征重要图。
Random_forest_fi ：显示XGBoost回归模型的特征重要图。
Prediction_error ：在测试数据上计算和打印回归模型的预测误差。
residual_plot ：创建并显示回归模型的残差图。
QQPLOT ：为回归模型创建并显示QQ图。

例子：

 from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf )

分类器模块

 from edamame . classifier import TrainClassifier

Trainclassifier类旨在用作培训和处理层化模型的管道。

该类提供了几种拟合不同回归模型，计算模型指标，保存和加载模型的方法，并使用Automl根据性能指标选择最佳模型。这些方法包括：

逻辑：将逻辑模型拟合到培训数据。
Gaussian_nb ：适合Gaussina Naive Bayes模型与训练数据。
KNN ：将k-near最邻居分类模型拟合到培训数据。
树：将决策树分类模型拟合到培训数据。
Random_forest ：将随机森林分类模型拟合到训练数据。
XGBoost ：将XGBoost分类模型拟合到训练数据。
- SVM ：将支持向量分类模型拟合到培训数据。
AUTO_ML ：使用AUTOML根据性能指标选择最佳模型。
model_metrics ：计算和打印每个训练有素的模型的性能指标。
SAVE_MODEL ：将训练有素的模型保存到文件中。

使用save_model方法保存模型后，我们可以使用EDA模块的LOAD_MODEL函数上传模型，并使用ClassIfier_Metrics函数在新数据上评估其性能。

 from edamame . classifier import classifier_metrics

例子：

 from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )