
GPBoost هي مكتبة برامج للجمع بين تعزيز الأشجار وعملية Gaussian ونماذج التأثيرات العشوائية المجمعة (AKA نماذج التأثيرات المختلطة أو النماذج الغوسية الكامنة). كما يسمح بتطبيق تعزيز الأشجار بشكل مستقل وكذلك العملية الغوسية ونماذج التأثيرات الخطية المختلطة (المعممة) (LMMs و GLMMS). تتم كتابة مكتبة GPBoost في الغالب في C ++ ، ولها واجهة C ، وهناك كلا من حزمة Python وحزمة R.
لمزيد من المعلومات ، قد ترغب في إلقاء نظرة على:
منشورات المدونة التالية:
دليل تثبيت CLI يشرح كيفية تثبيت إصدار واجهة سطر الأوامر (CLI)
تعليقات على الكفاءة الحسابية والبيانات الكبيرة
الوثائق في https://gpboost.readthedocs.io
تجمع خوارزمية GPBOOST بين تعزيز الأشجار والنماذج الغوسية الكامنة مثل العملية الغوسية (GP) ونماذج التأثيرات العشوائية المجمعة. يسمح ذلك بالاستفادة من المزايا وعلاج العيوب لكل من النماذج المعززة بالأشجار والموديلات الغوسية الكامنة ؛ انظر أدناه للحصول على قائمة بالقوة والضعف في هذين النهجين النمذجة. يمكن اعتبار خوارزمية GPBoost كتعميم لكل من التأثيرات الخطية المختلطة الخطية التقليدية (المعممة) ونماذج العمليات الغوسية وتعزيز الأشجار المستقلة الكلاسيكية (والتي غالبًا ما يكون لها أعلى تنبؤ للبيانات الجدولية).
بالمقارنة مع التأثيرات المختلطة الخطية (المعممة) ونماذج العمليات الغوسية ، تسمح خوارزمية GPBOOST
مقارنة بالتعزيز المستقل الكلاسيكي ، تسمح خوارزمية GPBoost
من أجل الاحتمالات الغوسية (خوارزمية GPBOOST) ، من المفترض أن متغير الاستجابة (الملقب الملصق) y هو مجموع الدالة المتوسطة غير الخطية المحتملة F (x) والتأثيرات العشوائية ZB:
y = F(X) + Zb + xi
عندما يكون F (x) عبارة عن مجموع (= "Ensemble") من الأشجار ، XI هو مصطلح خطأ مستقل ، و X هي متغيرات التنبؤ (المعروف أيضًا باسم المتغيرات المشتركة أو الميزات). يمكن أن تتكون الآثار العشوائية ZB حاليًا من:
بالنسبة للاحتمالات غير الغوسية (خوارزمية Lagaboost) ، من المفترض أن يكون متغير الاستجابة Y يتبع التوزيع p (y | m) وأن المعلمة (متعددة المتغيرات) m من هذا التوزيع مرتبطة بوظيفة غير خطية f (x) وتأثيرات عشوائية ZB:
y ~ p(y|m)
m = G(F(X) + Zb)
حيث G () هي وظيفة الارتباط المزعومة. انظر هنا للحصول على قائمة بالاحتمالات المدعومة حاليًا P (Y | M).
إن تقدير أو تدريب النماذج المذكورة أعلاه يعني تعلم كل من معلمات التغاير (الملقب بمقاييس البارامات) للتأثيرات العشوائية ودالة التنبؤ F (X). يتعلم كل من خوارزميات GPBoost و Lagaboost بشكل تكرار معلمات التباين وإضافة شجرة إلى مجموعة الأشجار F (x) باستخدام التدرج الوظيفي و/أو خطوة تعزيز Newton. انظر Sigrist (2022 ، JMLR) و Sigrist (2023 ، Tpami) لمزيد من التفاصيل.
| نقاط القوة | نقاط الضعف |
|---|---|
| -دقة التنبؤ الحديثة | - يفترض الاستقلال المشروط للعينات |
| -النمذجة التلقائية لغير الخطوط ، والانقطاعات ، والتفاعلات العالية المعقدة | - ينتج تنبؤات متقطعة ل ، مثل ، البيانات المكانية |
| - قوية في القيم المتطورة في وتوحيد الخط بين متغيرات التنبؤ | - يمكن أن تواجه صعوبة في المتغيرات الفئوية عالية القلب |
| - المقياس غير المتغير إلى التحولات الرتيبة لمتغيرات التنبؤ | |
| - التعامل التلقائي للقيم المفقودة في متغيرات التنبؤ |
| نقاط القوة | نقاط الضعف |
|---|---|
| - التنبؤات الاحتمالية التي تسمح بتقدير عدم اليقين | - صفر أو وظيفة خطية سابقة (المتنبئ ، التأثيرات الثابتة) |
| - دمج المعرفة السابقة المعقولة. على سبيل المثال بالنسبة للبيانات المكانية: "العينات الإغلاق تشبه بعضها البعض أكثر من العينات البعيدة" وينبغي أن تختلف الوظيفة بشكل مستمر / بسلاسة على الفضاء | |
| - نمذجة التبعية التي ، من بين أشياء أخرى ، يمكن أن تسمح بتعلم أكثر كفاءة لوظيفة التأثيرات الثابتة (المتنبئ) | |
| - يمكن استخدام التأثيرات العشوائية المجمعة لنمذجة المتغيرات الفئوية عالية القلبية |
تم ترخيص هذا المشروع بموجب شروط ترخيص Apache 2.0. انظر الترخيص لمزيد من المعلومات.