
Edamame مستوحى من حزم مثل Pandas-Profiling و Pycaret و Yellowbrick. الهدف من Edamame هو توفير وظائف سهلة الاستخدام لإجراء تحليل البيانات الاستكشافية (EDA) على مجموعات البيانات ، وكذلك لتدريب وتحليل بطاريات نماذج لمشاكل الانحدار أو التصنيف.
لتثبيت الحزمة ،
pip install edamameتعمل حزمة Edamame بشكل صحيح داخل جوبتر نوت. يمكنك العثور على وثائق الحزمة في صفحة الوثاق Edamame.
تتكون الحزمة من ثلاث وحدات: EDA ، والتي تؤدي تحليل البيانات الاستكشافية ؛ والتراجع والمصنف ، الذي يتعامل مع تدريب نماذج التعلم الآلي للانحدار والتصنيف ، على التوالي. للاطلاع على أمثلة لاستخدامات حزمة edamame ، يمكنك التحقق من مجلد الأمثلة في المستودع.
import edamame . eda as edaتوفر وحدة EDA مجموعة واسعة من الوظائف لإجراء تحليل البيانات الاستكشافية (EDA) على مجموعات البيانات. باستخدام هذه الوحدة ، يمكنك بسهولة استكشاف بياناتك ومعالجتها ، وإجراء إحصائيات وصفية ، وتحليل الارتباط ، وإعداد بياناتك للتعلم الآلي. توفر وحدة "EDA" الوظائف التالية:
وظائف استكشاف البيانات ومعالجتها:
وظائف الإحصائيات الوصفية:
وظائف تحليل الارتباط:
وظائف مفيدة:
from edamame . regressor import TrainRegressor , regression_metricsتم تصميم فئة Trainregressor لاستخدامها كخط أنابيب لتدريب ومعالجة نماذج الانحدار.
يوفر الفئة عدة طرق لتركيب نماذج الانحدار المختلفة ، ومقاييس نموذج الحوسبة ، ونماذج حفظ وتحميل ، واستخدام Automl لتحديد أفضل نموذج يعتمد على مقاييس الأداء. وتشمل هذه الطرق:
بعد حفظ نموذج باستخدام طريقة Save_Model ، يمكننا تحميل النموذج باستخدام وظيفة LOAD_MODEL لوحدة EDA وتقييم أدائها على البيانات الجديدة باستخدام وظيفة CREPRISS_METRICS .
from edamame . regressor import RegressorDiagnoseتم تصميم فئة Credressordiagnose لتشخيص نماذج الانحدار وتحليل أدائها. يوفر الفصل عدة طرق لتشخيص وتحليل أداء نماذج الانحدار. وتشمل هذه الطرق:
from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf ) from edamame . classifier import TrainClassifierتم تصميم فئة Trainsclassifier لاستخدامها كخط أنابيب للتدريب والتعامل مع نماذج clasification.
يوفر الفئة عدة طرق لتركيب نماذج الانحدار المختلفة ، ومقاييس نموذج الحوسبة ، ونماذج حفظ وتحميل ، واستخدام Automl لتحديد أفضل نموذج يعتمد على مقاييس الأداء. وتشمل هذه الطرق:
بعد حفظ نموذج باستخدام طريقة Save_Model ، يمكننا تحميل النموذج باستخدام وظيفة LOAD_MODEL لوحدة EDA وتقييم أدائها على البيانات الجديدة باستخدام وظيفة Classifier_Metrics .
from edamame . classifier import classifier_metrics from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )