مكتبة مصاحبة لمكتبة التعلم الآلي ميزات الهندسة واختيار النماذج القابلة للتفسير: دورة ثانية لعلماء البيانات
تساعد وحدة metaheuristicsfs في تحديد مجموعة من الميزات التي تعطي أفضل نتيجة. تسمى عملية البحث عن أفضل مجموعة "اختيار الميزات". تستخدم هذه المكتبة الخوارزميات القائمة على metaheuristic مثل الخوارزمية الوراثية ، والصلصة المحاكاة ، وتحسين مستعمرة النمل ، وتحسين سرب الجسيمات ، لاختيار الميزة.
معلمات التعلم الآلي: هذه شائعة لجميع الخوارزميات
columns_list : أسماء الأعمدة الموجودة في X_Train_DataFrame و X_Test والتي سيتم استخدامها كقائمة إدخال للبحث في قائمة أفضل الميزات.
data_dict : بيانات التدريب والاختبار x و y المقدمة بتنسيق القاموس. فيما يلي مثال على بيانات التحقق من صحة 5 أضعاف مع المفاتيح. {0: {'x_train': x_train_dataframe ، 'y_train': y_train_array ، 'x_test': x_test_dataframe ، 'y_test': y_test_array} ، 1: {'x_train': x_train_dataframe ، 'y_train': y_train_array ، 'x_test': x_test_dataframe ، 'y_test': y_test_array} ، 2: {'x_train': x_train_dataframe ، 'y_train': y_train_array ، 'x_test': x_test_dataframe ، 'y_test': y_test_array} ، 3: {'x_train': x_train_dataframe ، 'y_train': y_train_array ، 'x_test': x_test_dataframe ، 'y_test': y_test_array} ، 4: {'x_train': x_train_dataframe ، 'y_train': y_train_array ، 'x_test': x_test_dataframe ، 'y_test': y_test_array}}
إذا كان لديك فقط بيانات القطار والاختبار ولا ترغب في القيام بالتحقق من الصحة ، فاستخدم تنسيق القاموس أعلاه ، مع مفتاح واحد فقط.
use_validation_data : ما إذا كنت تريد استخدام بيانات التحقق من صحة كصورة منطقية أو خاطئة. القيمة الافتراضية صحيحة. إذا كان خطأ ، لا يحتاج المستخدم إلى توفير x_validation_dataframe و y_validation_dataframe
x_validation_dataframe : DataFrame يحتوي على ميزات مجموعة بيانات Valiatatoin. الافتراضي هو فارغة dataframe pandas.
y_validation_dataframe : DataFrame يحتوي على متغير تابع لمجموعة بيانات التحقق من الصحة. الافتراضي هو فارغة dataframe pandas.
model : كائن النموذج. يجب أن يكون لها.
cost_function_improvement : الهدف هو زيادة التكلفة أو تقليل التكلفة أثناء التكرار اللاحق. بالنسبة للانحدار ، يجب أن يكون "انخفاضًا" وللتصنيف ، يجب أن يكون "زيادة"
cost_function : وظيفة التكلفة لإيجاد التكلفة بين القيم الفعلية والمتوقعة ، اعتمادًا على مشكلة الانحدار أو التصنيف. يجب أن تقبل وظيفة التكلفة "الفعلية" و "المتوقعة" كصفائف وتكلفة الإرجاع لكليهما.
average : متوسط لاستخدامه. هذا مفيد لمقاييس clasification مثل "f1_score" و "jaccard_score" و "fbeta_score" و "precision_score" و "rection_score" و "ROC_AUC_SCORE" عندما يكون المتغير التابع متعدد الفصول
معلمات تحديد ميزات الخوارزمية الوراثية (GENTATYGORITHMFS)
generations : عدد الأجيال لتشغيل الخوارزمية الجينية. 100 كما ديل
population : عدد الكروموسومات الفردية. 50 كما الافتراضي. يجب الحفاظ على عدد منخفض إذا كان عدد التقليب المحتمل ومجموعة من مجموعات الميزات صغيرة.
prob_crossover : احتمال كروس. 0.9 كما الافتراضي
prob_mutation : احتمال الطفرة. 0.1 كما الافتراضي
run_time : عدد الدقائق لتشغيل الخوارزمية. يتم فحص هذا بين الأجيال. في بداية كل جيل ، يتم التحقق مما إذا كان وقت التشغيل قد تجاوز الوقت المخصص. إذا تجاوز وقت تشغيل الحالة ، فسيتم إعطاء أفضل نتيجة من الأجيال التي تم تنفيذها حتى الآن كمخرجات. الافتراضي هو ساعتين. أي 120 دقيقة.
محاكاة معلمات اختيار ميزة الصلب (SimulatedAnnealingFS)
temperature : درجة الحرارة الأولية للصلصة. الافتراضي هو 1500
iterations : عدد المرات التي يبحث فيها الصلب المحاكاة عن الحلول. الافتراضي هو 100.
n_perturb : سيتم اضطراب عدد ميزات Times Times في التكرار. الافتراضي هو 1.
n_features_percent_perturb : النسبة المئوية للميزات التي ستضرب أثناء كل اضطراب. القيمة بين 1 و 100.
alpha : عامل الحد من درجة الحرارة. الافتراضيات هي 0.9.
run_time : عدد الدقائق لتشغيل الخوارزمية. يتم فحص هذا بين الأجيال. في بداية كل جيل ، يتم التحقق مما إذا كان وقت التشغيل قد تجاوز الوقت المخصص. إذا تجاوز وقت تشغيل الحالة ، فسيتم إعطاء أفضل نتيجة من الأجيال التي تم تنفيذها حتى الآن كمخرجات. الافتراضي هو ساعتين. أي 120 دقيقة.
معلمات اختيار ميزة تحسين ANT Colony (antcolonyoptimizationfs)
iterations : سيبحث عدد مرات ONT Colony Optimization عن الحلول. الافتراضي هو 100.
N_ants : عدد النمل في كل تكرار. الافتراضي هو 100.
evaporation_rate : معدل التبخر. تتراوح القيم بين 0 و 1. إذا كانت كبيرة جدًا ، فالفرص أعلى للعثور على Optima العالمي ، ولكنها مكلفة من الناحية الحسابية. إذا كانت منخفضة ، فإن فرص العثور على Optima العالمية أقل. يتم الاحتفاظ بالتخلف عن 0.8.
Q : معامل تحديث الفيرومين. القيمة بين 0 و 1. تؤثر على سرعة التقارب. إذا كانت كبيرة ، فسوف تتعثر ACO في Optima المحلي. يتم الاحتفاظ بالتخلف عن 0.2.
run_time : عدد الدقائق لتشغيل الخوارزمية. يتم فحص هذا بين الأجيال. في بداية كل جيل ، يتم التحقق مما إذا كان وقت التشغيل قد تجاوز الوقت المخصص. إذا تجاوز وقت تشغيل الحالة ، فسيتم إعطاء أفضل نتيجة من الأجيال التي تم تنفيذها حتى الآن كمخرجات. الافتراضي هو ساعتين. أي 120 دقيقة.
اختيار ميزة تحسين سرب الجسيمات (الجسيمات warmoRarmoptimizationFs) معلمات
iterations : عدد مرات تحسين سرب الجسيمات سوف يبحث عن الحلول. الافتراضي هو 100.
swarmSize : حجم سرب في كل تكرار. الافتراضي هو 100.
run_time : عدد الدقائق لتشغيل الخوارزمية. يتم فحص هذا بين الأجيال. في بداية كل جيل ، يتم التحقق مما إذا كان وقت التشغيل قد تجاوز الوقت المخصص. إذا تجاوز وقت تشغيل الحالة ، فسيتم إعطاء أفضل نتيجة من الأجيال التي تم تنفيذها حتى الآن كمخرجات. الافتراضي هو ساعتين. أي 120 دقيقة.
MD Azimul Haque (2022). ميزة هندسة واختيار النماذج القابلة للتفسير: دورة ثانية لعلماء البيانات. Lulu Press ، Inc.
pip install MetaHeuristicsFS