تنزيل edamame - تنزيل رمز المصدر edamame

edamame

كود الذكاء الاصطناعي

1.0.0

تنزيل

إدمام

إدمام
وظائف
وحدة EDA
وحدة التراجع
- مثال:
وحدة المصنف
- مثال:
تودوس

Edamame مستوحى من حزم مثل Pandas-Profiling و Pycaret و Yellowbrick. الهدف من Edamame هو توفير وظائف سهلة الاستخدام لإجراء تحليل البيانات الاستكشافية (EDA) على مجموعات البيانات ، وكذلك لتدريب وتحليل بطاريات نماذج لمشاكل الانحدار أو التصنيف.

لتثبيت الحزمة ،

 pip install edamame

تعمل حزمة Edamame بشكل صحيح داخل جوبتر نوت. يمكنك العثور على وثائق الحزمة في صفحة الوثاق Edamame.

وظائف

تتكون الحزمة من ثلاث وحدات: EDA ، والتي تؤدي تحليل البيانات الاستكشافية ؛ والتراجع والمصنف ، الذي يتعامل مع تدريب نماذج التعلم الآلي للانحدار والتصنيف ، على التوالي. للاطلاع على أمثلة لاستخدامات حزمة edamame ، يمكنك التحقق من مجلد الأمثلة في المستودع.

وحدة EDA

 import edamame . eda as eda

توفر وحدة EDA مجموعة واسعة من الوظائف لإجراء تحليل البيانات الاستكشافية (EDA) على مجموعات البيانات. باستخدام هذه الوحدة ، يمكنك بسهولة استكشاف بياناتك ومعالجتها ، وإجراء إحصائيات وصفية ، وتحليل الارتباط ، وإعداد بياناتك للتعلم الآلي. توفر وحدة "EDA" الوظائف التالية:

وظائف استكشاف البيانات ومعالجتها:
- الأبعاد : تعرض الوظيفة عدد الصفوف والأعمدة التي تم تمريرها.
- تحديد _types : حدد أنواع البيانات لكل عمود.
- View_Cardinality : عرض عدد القيم الفريدة في كل عمود فئر.
- modify_cardinality : تعديل عدد القيم الفريدة في العمود.
- مفقود : تحقق مما إذا كانت أي بيانات مفقودة موجودة في مجموعة البيانات.
- handling_missing : استبدل أو إزالة القيم المفقودة في مجموعة البيانات.
- drop_columns : قم بإزالة أعمدة محددة من مجموعة البيانات.
- num_to_categorical : تقوم الدالة بإرجاع إطار بيانات مع تحويل الأعمدة إلى "كائن".
- التفاعل : تعرض الوظيفة مؤامرة تفاعلية لتحليل العلاقات بين الأعمدة العددية مع scatterplot.
- التفتيش : تعرض الوظيفة مؤامرة تفاعلية لتحليل توزيع متغير استنادًا إلى الأساسيات المتميزة للمتغير المستهدف.
- split_and_scaling : تُرجع الدالة اثنين من بيانات pandas: تحتوي مصفوفة التراجع X على جميع المتنبئين للنموذج ، تحتوي السلسلة Y على قيم متغير الاستجابة.
وظائف الإحصائيات الوصفية:
- وصف _distribution : تعرض الدالة نتيجة طريقة الوصف () المطبقة على DataFrame Pandas ، مقسومًا على الأعمدة العددية والكائن.
- Plot_Categorical : تقوم الدالة بإرجاع سلسلة من الجداول والمؤامرات للمتغيرات الفئوية.
- Plot_numerical : تُرجع الدالة تسلسلًا من الجداول والمؤامرات للمتغيرات العددية.
- num_variable_study : تعرض الدالة التحولات التالية للمتغير الذي تم تمريره: log (x) ، sqrt (x) ، x^2 ، box-cox ، 1/x.
وظائف تحليل الارتباط:
- Connelation_Pearson : تعمل الوظيفة على ارتباط بيرسون بين أزواج الأعمدة.
- الارتباط _categorical : تقوم الوظيفة بإجراء اختبار chi-square للاستقلال بين المتغيرات الفئوية لمجموعة البيانات.
- الارتباط _phik : احسب معامل ارتباط Phik بين جميع أزواج الأعمدة (رابط الورق).
وظائف مفيدة:
- LOAD_MODEL : الدالة قم بتحميل النموذج المحفوظ في تنسيق المخلل.
- الإعداد : تقوم الدالة بإرجاع العناصر التالية: x_train ، y_train ، x_test ، y_test.
- التحجيم : تُرجع الوظيفة المصفوفة الطبيعية/الموحدة.
- OHE : تُرجع الدالة صفيف Numpy الذي تم تمريره كمدخلات ، تم تحويله باستخدام ترميز واحد.

وحدة التراجع

 from edamame . regressor import TrainRegressor , regression_metrics

تم تصميم فئة Trainregressor لاستخدامها كخط أنابيب لتدريب ومعالجة نماذج الانحدار.

يوفر الفئة عدة طرق لتركيب نماذج الانحدار المختلفة ، ومقاييس نموذج الحوسبة ، ونماذج حفظ وتحميل ، واستخدام Automl لتحديد أفضل نموذج يعتمد على مقاييس الأداء. وتشمل هذه الطرق:

خطي : يناسب نموذج الانحدار الخطي لبيانات التدريب.
لاسو : يناسب نموذج الانحدار لاسو لبيانات التدريب.
Ridge : يناسب نموذج الانحدار Ridge لبيانات التدريب.
الشجرة : يناسب نموذج انحدار الأشجار لبيانات التدريب.
Random_Forest : يناسب نموذج انحدار الغابات العشوائي لبيانات التدريب.
XgBoost : يناسب نموذج الانحدار XgBoost لبيانات التدريب.
Auto_ml : يستخدم Automl لتحديد أفضل نموذج استنادًا إلى مقاييس الأداء.
Model_metrics : يحسب وطبع مقاييس الأداء لكل طراز مدرب.
Save_Model : يحفظ النموذج المدرب إلى ملف.

بعد حفظ نموذج باستخدام طريقة Save_Model ، يمكننا تحميل النموذج باستخدام وظيفة LOAD_MODEL لوحدة EDA وتقييم أدائها على البيانات الجديدة باستخدام وظيفة CREPRISS_METRICS .

 from edamame . regressor import RegressorDiagnose

تم تصميم فئة Credressordiagnose لتشخيص نماذج الانحدار وتحليل أدائها. يوفر الفصل عدة طرق لتشخيص وتحليل أداء نماذج الانحدار. وتشمل هذه الطرق:

المعاملات : تحسب وطباعة معاملات نموذج الانحدار.
Random_Forest_fi : يعرض مؤامرة أهمية الميزة لنموذج انحدار الغابات العشوائي.
random_forest_fi : يعرض مؤامرة أهمية الميزة لنموذج الانحدار xgboost.
التنبؤ _error : يحسب وطبع خطأ التنبؤ لنموذج الانحدار في بيانات الاختبار.
Resexual_plot : يخلق ويعرض مؤامرة متبقية لنموذج الانحدار.
QQPLOT : ينشئ ويعرض مؤامرة QQ لنموذج الانحدار.

مثال:

 from sklearn . datasets import make_regression
from edamame . regressor import TrainRegressor
import pandas as pd
import edamame . eda as eda
from edamame . regressor import RegressorDiagnose
X , y = make_regression ( n_samples = 1000 , n_features = 5 , n_targets = 1 , random_state = 42 )
X = pd . DataFrame ( X , columns = [ "f1" , "f2" , "f3" , "f4" , "f5" ])
y = pd . DataFrame ( y , columns = [ "y" ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
regressor = TrainRegressor ( X_train_s , y_train , X_test_s , y_test )
rf = regressor . random_forest ()
regressor . model_metrics ()
diagnose = RegressorDiagnose ( X_train_s , y_train , X_test_s , y_test )
diagnose . random_forest_fi ( model = rf )
diagnose . prediction_error ( model = rf )

وحدة المصنف

 from edamame . classifier import TrainClassifier

تم تصميم فئة Trainsclassifier لاستخدامها كخط أنابيب للتدريب والتعامل مع نماذج clasification.

يوفر الفئة عدة طرق لتركيب نماذج الانحدار المختلفة ، ومقاييس نموذج الحوسبة ، ونماذج حفظ وتحميل ، واستخدام Automl لتحديد أفضل نموذج يعتمد على مقاييس الأداء. وتشمل هذه الطرق:

اللوجستية : يناسب نموذج اللوجستية لبيانات التدريب.
Gaussian_nb : يناسب نموذج Bayes Gaussina لبيانات التدريب.
KNN : يناسب نموذج تصنيف الجيران K-nearest لبيانات التدريب.
الشجرة : يناسب نموذج تصنيف الأشجار لبيانات التدريب.
Random_Forest : يناسب نموذج تصنيف الغابات العشوائي لبيانات التدريب.
XgBoost : يناسب نموذج تصنيف XgBoost لبيانات التدريب.
- SVM : يناسب نموذج تصنيف ناقلات الدعم لبيانات التدريب.
Auto_ml : يستخدم Automl لتحديد أفضل نموذج استنادًا إلى مقاييس الأداء.
Model_metrics : يحسب وطبع مقاييس الأداء لكل طراز مدرب.
Save_Model : يحفظ النموذج المدرب إلى ملف.

بعد حفظ نموذج باستخدام طريقة Save_Model ، يمكننا تحميل النموذج باستخدام وظيفة LOAD_MODEL لوحدة EDA وتقييم أدائها على البيانات الجديدة باستخدام وظيفة Classifier_Metrics .

 from edamame . classifier import classifier_metrics

مثال:

 from edamame . classifier import TrainClassifier
from sklearn import datasets
import edamame . eda as eda
iris = datasets . load_iris ()
X = iris . data
X = pd . DataFrame ( X , columns = iris . feature_names )
y = iris . target
y = pd . DataFrame ( y , columns = [ 'y' ])
X_train , y_train , X_test , y_test = eda . setup ( X , y )
X_train_s = eda . scaling ( X_train )
X_test_s = eda . scaling ( X_test )
classifier = TrainClassifier ( X_train_s , y_train , X_test_s , y_test )
models = classifier . auto_ml ()
svm = classifier . svm ()
classifier . model_metrics ( model_name = "svm" )
classifier . save_model ( model_name = "svm" )
svm_upload = eda . load_model ( path = "svm.pkl" )
classifier_metrics ( svm_upload , X_train_s , y_train )