
GPBOOST เป็นไลบรารีซอฟต์แวร์สำหรับการรวมการเพิ่มต้นไม้เข้ากับกระบวนการแบบเกาส์และแบบจำลองเอฟเฟกต์แบบสุ่ม (โมเดลเอฟเฟกต์ผสมหรือโมเดล Gaussian แฝง) นอกจากนี้ยังช่วยให้การใช้การเพิ่มต้นไม้เช่นเดียวกับกระบวนการแบบเกาส์และแบบจำลองเอฟเฟกต์เชิงเส้น (ทั่วไป) (LMMs และ GLMMs) ไลบรารี GPBOOST ถูกเขียนเป็นส่วนใหญ่ใน C ++ มีอินเตอร์เฟส C และมีทั้ง แพ็คเกจ Python และ แพ็คเกจ R
สำหรับข้อมูลเพิ่มเติมคุณอาจต้องการดู:
โพสต์บล็อก ต่อไปนี้:
คู่มือการติดตั้ง CLI อธิบายวิธีการติดตั้งเวอร์ชันอินเทอร์เฟซบรรทัดคำสั่ง (CLI)
ความคิดเห็นเกี่ยวกับประสิทธิภาพการคำนวณและข้อมูลขนาดใหญ่
เอกสารที่ https://gpboost.readthedocs.io
อัลกอริทึม GPBOOST ผสมผสานการเพิ่มต้นไม้เข้ากับรุ่น Gaussian แฝงเช่นกระบวนการเกาส์เซียน (GP) และแบบจำลองเอฟเฟกต์แบบสุ่ม สิ่งนี้ช่วยให้สามารถใช้ประโยชน์จากข้อได้เปรียบและการแก้ไขข้อเสียของทั้งแบบจำลองต้นไม้และ Gaussian แฝง ดูด้านล่างสำหรับรายการความแข็งแกร่งและจุดอ่อนของวิธีการสร้างแบบจำลองทั้งสองนี้ อัลกอริทึม GPBOOST สามารถมองเห็นได้ว่าเป็นลักษณะทั่วไปของเอฟเฟกต์แบบผสมเชิงเส้นแบบดั้งเดิม (ทั่วไป) และแบบจำลองกระบวนการเกาส์เซียนและการเพิ่มต้นไม้อิสระแบบคลาสสิก (ซึ่งมักจะมีการคาดการณ์สูงสุดสำหรับข้อมูลตาราง)
เมื่อเปรียบเทียบกับเอฟเฟกต์แบบผสมเชิงเส้น (ทั่วไป) และแบบจำลองกระบวนการเกาส์เซียนอัลกอริทึม GPBoost อนุญาตให้ใช้งานได้
เมื่อเปรียบเทียบกับการเพิ่มอิสระแบบคลาสสิกอัลกอริทึม GPBOOST อนุญาต
สำหรับความน่าจะเป็นแบบเกาส์เซียน (อัลกอริทึม gpboost) สันนิษฐานว่าตัวแปรตอบสนอง (ฉลาก aka) y คือผลรวมของฟังก์ชั่นเฉลี่ยที่ไม่ใช่เชิงเส้น f (x) และเอฟเฟกต์สุ่ม ZB:
y = F(X) + Zb + xi
โดยที่ F (x) เป็นผลรวม (= "Ensemble") ของต้นไม้ XI เป็นคำผิดพลาดที่เป็นอิสระและ x เป็นตัวแปรทำนาย (aka covariates หรือคุณสมบัติ) เอฟเฟกต์แบบสุ่ม ZB สามารถประกอบด้วย:
สำหรับความน่าจะเป็นที่ไม่ใช่เกาส์ (อัลกอริทึม Lagaboost) สันนิษฐานว่าตัวแปรการตอบสนอง y ตามการกระจาย P (y | m) และพารามิเตอร์ (หลายตัวแปร) m ของการแจกแจงนี้เกี่ยวข้องกับฟังก์ชันที่ไม่ใช่เชิงเส้น F (x) และเอฟเฟกต์สุ่ม ZB:
y ~ p(y|m)
m = G(F(X) + Zb)
โดยที่ g () เป็นฟังก์ชันลิงก์ที่เรียกว่า ดูที่นี่สำหรับรายการของโอกาสที่ได้รับการสนับสนุนในปัจจุบัน p (y | m)
การประมาณหรือการฝึกอบรม แบบจำลองที่กล่าวถึงข้างต้นหมายถึงการเรียนรู้ทั้งพารามิเตอร์ความแปรปรวนร่วม (AKA Hyperparameters) ของเอฟเฟกต์แบบสุ่มและฟังก์ชันตัวทำนาย F (X) ทั้งอัลกอริทึม GPBOOST และ LAGABOOST เรียนรู้พารามิเตอร์ความแปรปรวนร่วมและเพิ่มต้นไม้ลงในวงดนตรีของต้นไม้ F (X) โดยใช้การไล่ระดับสีที่ใช้งานได้และ/หรือขั้นตอนการเพิ่มนิวตัน ดู Sigrist (2022, JMLR) และ Sigrist (2023, TPAMI) สำหรับรายละเอียดเพิ่มเติม
| จุดแข็ง | ความอ่อนแอ |
|---|---|
| -ความแม่นยำในการทำนายที่ทันสมัย | - สมมติว่าเป็นอิสระตามเงื่อนไขของตัวอย่าง |
| -การสร้างแบบจำลองอัตโนมัติของการไม่เป็นเชิงเส้นความไม่ต่อเนื่องและการโต้ตอบลำดับสูงที่ซับซ้อน | - สร้างการคาดการณ์ที่ไม่ต่อเนื่องสำหรับเช่นข้อมูลเชิงพื้นที่ |
| - ทนทานต่อค่าผิดปกติและความหลากหลายในหมู่ตัวแปรทำนาย | - สามารถมีปัญหากับตัวแปรหมวดหมู่ที่มีความสามารถสูง |
| - สเกลที่ไม่แปรเปลี่ยนไปสู่การแปลงโมโนโทนของตัวแปรทำนาย | |
| - การจัดการค่าที่หายไปโดยอัตโนมัติในตัวแปรทำนาย |
| จุดแข็ง | ความอ่อนแอ |
|---|---|
| - การทำนายความน่าจะเป็นซึ่งช่วยให้ปริมาณความไม่แน่นอน | - ฟังก์ชั่นค่าเฉลี่ยของค่าเฉลี่ยก่อนหน้า (ตัวทำนายผลคงที่) |
| - การรวมตัวกันของความรู้ก่อนหน้านี้ที่สมเหตุสมผล เช่นสำหรับข้อมูลเชิงพื้นที่: "ตัวอย่างปิดมีความคล้ายคลึงกันมากกว่าตัวอย่างที่ห่างไกล" และฟังก์ชั่นควรแตกต่างกันอย่างต่อเนื่อง / ราบรื่นเหนืออวกาศ | |
| - การสร้างแบบจำลองของการพึ่งพาซึ่งเหนือสิ่งอื่นใดสามารถช่วยให้การเรียนรู้ที่มีประสิทธิภาพมากขึ้นเกี่ยวกับฟังก์ชันเอฟเฟกต์คงที่ (ตัวทำนาย) | |
| - เอฟเฟกต์แบบสุ่มแบบจัดกลุ่มสามารถใช้สำหรับการสร้างแบบจำลองตัวแปรหมวดหมู่ที่มีความสามารถสูง |
โครงการนี้ได้รับใบอนุญาตภายใต้ข้อกำหนดของ Apache License 2.0 ดูใบอนุญาตสำหรับข้อมูลเพิ่มเติม