edamame下載edamame源代碼下載

edamame

Ai源碼

1.0.0

下載

毛豆

毛豆
功能
EDA模塊
回歸器模塊
- 例子：
分類器模塊
- 例子：
戒酒

Edamame的靈感來自Pandas Profiling，Pycaret和Yellowbrick等包裝。 EDAMAME的目的是提供用戶友好的功能，以在數據集上進行探索性數據分析（EDA），以及用於培訓和分析模型的回歸或分類問題的電池。

要安裝軟件包，

 pip install edamame

Edamame軟件包在Jupyter音符中正確工作。您可以在“ Edamame-Documentation”頁面上找到軟件包的文檔。

功能

該軟件包由三個模塊組成：EDA，執行探索性數據分析；以及回歸器和分類器，分別處理機器學習模型的回歸和分類。要查看Edamame軟件包用途的示例，您可以在存儲庫中查看示例文件夾。

EDA模塊

 import edamame . eda as eda

EDA模塊提供了廣泛的功能，用於在數據集上執行探索性數據分析（EDA）。使用此模塊，您可以輕鬆地探索和操縱數據，進行描述性統計信息，相關分析並準備數據以進行機器學習。 “ EDA”模塊提供以下功能：

數據探索和操縱功能：
- 尺寸：該功能顯示傳遞的熊貓數據框的行數和列的數量。
- 識別圖：標識每列的數據類型。
- view_cardinality ：查看每個分類列中唯一值的數量。
- modify_cardinality ：修改列中唯一值的數量。
- 缺少：檢查數據集中是否存在任何丟失的數據。
- andling_missing ：替換或刪除數據集中的缺失值。
- drop_columns ：從數據集中刪除特定列。
- num_to_categorical ：該函數返回一個數據框，其中列轉換為“對象”。
- 相互作用：該函數顯示一個交互式圖，用於分析與散點圖的數值列之間的關係。
- 檢查：該函數顯示了一個交互式圖，用於根據目標變量的不同基礎分析變量的分佈。
- split_and_scaling ：函數返回兩個pandas dataframes：回歸矩陣X包含模型的所有預測指標，系列y包含響應變量的值。
描述性統計函數：
- Descript_distribution ：該函數顯示了應用於PANDAS數據框的Dridend（）方法的結果，除以數值和對象列。
- plot_categorical ：該函數返回分類變量的表和圖序列。
- plot_numerical ：該函數返回數值變量的表和圖序列。
- num_variable_study ：他函數顯示了傳遞的變量col的以下轉換：log（x），sqrt（x），x^2，box-cox，1/x。
相關分析功能：
- CORTERELATION_PEARSON ：該函數執行列對之間的Pearson相關性。
- CORERELATION_CATEGIRALE ：該函數執行數據集的分類變量之間的獨立性卡方檢驗。
- CORERELATION_PHIK ：計算所有列對之間的PHIK相關係數（紙鏈接）。
有用的功能：
- LOAD_MODEL ：功能加載以醃製格式保存的模型。
- 設置：函數返回以下元素：x_train，y_train，x_test，y_test。
- 縮放：函數返回歸一化/標準化矩陣。
- OHE ：該函數返回傳遞的numpy陣列作為輸入，使用一hot編碼轉換。

回歸器模塊

 from edamame . regressor import TrainRegressor , regression_metrics

TrainRegressor類旨在用作培訓和處理回歸模型的管道。

該類提供了幾種擬合不同回歸模型，計算模型指標，保存和加載模型的方法，並使用Automl根據性能指標選擇最佳模型。這些方法包括：

線性：將線性回歸模型擬合到訓練數據。
拉索：將套索回歸模型擬合到訓練數據。
脊：將脊回歸模型適合訓練數據。
樹：將決策樹回歸模型擬合到培訓數據。
Random_forest ：將隨機森林回歸模型擬合到訓練數據。
XGBoost ：將XGBoost回歸模型擬合到訓練數據。
AUTO_ML ：使用AUTOML根據性能指標選擇最佳模型。
model_metrics ：計算和打印每個訓練有素的模型的性能指標。
SAVE_MODEL ：將訓練有素的模型保存到文件中。

使用save_model方法保存模型後，我們可以使用EDA模塊的LOAD_MODEL函數上傳模型，並使用Regression_Metrics函數評估其在新數據上的性能。

 from edamame . regressor import RegressorDiagnose

回歸診斷類旨在診斷回歸模型並分析其性能。該類提供了幾種診斷和分析回歸模型性能的方法。這些方法包括：

係數：計算和打印回歸模型的係數。
Random_forest_fi ：顯示隨機森林回歸模型的特徵重要圖。
Random_forest_fi ：顯示XGBoost回歸模型的特徵重要圖。
Prediction_error ：在測試數據上計算和打印回歸模型的預測誤差。
residual_plot ：創建並顯示回歸模型的殘差圖。
QQPLOT ：為回歸模型創建並顯示QQ圖。

例子：

 from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf )

分類器模塊

 from edamame . classifier import TrainClassifier

Trainclassifier類旨在用作培訓和處理層化模型的管道。

該類提供了幾種擬合不同回歸模型，計算模型指標，保存和加載模型的方法，並使用Automl根據性能指標選擇最佳模型。這些方法包括：

邏輯：將邏輯模型擬合到培訓數據。
Gaussian_nb ：適合Gaussina Naive Bayes模型與訓練數據。
KNN ：將k-near最鄰居分類模型擬合到培訓數據。
樹：將決策樹分類模型擬合到培訓數據。
Random_forest ：將隨機森林分類模型擬合到訓練數據。
XGBoost ：將XGBoost分類模型擬合到訓練數據。
- SVM ：將支持向量分類模型擬合到培訓數據。
AUTO_ML ：使用AUTOML根據性能指標選擇最佳模型。
model_metrics ：計算和打印每個訓練有素的模型的性能指標。
SAVE_MODEL ：將訓練有素的模型保存到文件中。

使用save_model方法保存模型後，我們可以使用EDA模塊的LOAD_MODEL函數上傳模型，並使用ClassIfier_Metrics函數在新數據上評估其性能。

 from edamame . classifier import classifier_metrics

例子：

 from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )