ดาวน์โหลด GPBoost - ดาวน์โหลดซอร์สโค้ด GPBoost

GPBoost

ซี/ซี++

v1.5.4

ดาวน์โหลด

ไอคอน gpboost

GPBOOST: การรวมการเพิ่มต้นไม้เข้ากับกระบวนการเกาส์และแบบจำลองเอฟเฟกต์ผสม

สารบัญ

การแนะนำ
พื้นหลังการสร้างแบบจำลอง
ข่าว
ปัญหาเปิด - มีส่วนร่วม
การอ้างอิง
ใบอนุญาต

การแนะนำ

GPBOOST เป็นไลบรารีซอฟต์แวร์สำหรับการรวมการเพิ่มต้นไม้เข้ากับกระบวนการแบบเกาส์และแบบจำลองเอฟเฟกต์แบบสุ่ม (โมเดลเอฟเฟกต์ผสมหรือโมเดล Gaussian แฝง) นอกจากนี้ยังช่วยให้การใช้การเพิ่มต้นไม้เช่นเดียวกับกระบวนการแบบเกาส์และแบบจำลองเอฟเฟกต์เชิงเส้น (ทั่วไป) (LMMs และ GLMMs) ไลบรารี GPBOOST ถูกเขียนเป็นส่วนใหญ่ใน C ++ มีอินเตอร์เฟส C และมีทั้ง แพ็คเกจ Python และ แพ็คเกจ R

สำหรับข้อมูลเพิ่มเติมคุณอาจต้องการดู:

แพ็คเกจ Python และ R รวมถึงคำแนะนำในการติดตั้ง
บทความสหาย sigrist (2022, JMLR) และ sigrist (2023, tpami) สำหรับพื้นหลังเกี่ยวกับวิธีการ
ตัวอย่างงูหลาม โดยละเอียดและ ตัวอย่าง R
พารามิเตอร์หลัก : พารามิเตอร์ / การตั้งค่าที่สำคัญที่สุดสำหรับไลบรารี GPBOOST

โพสต์บล็อก ต่อไปนี้:
- รวมการเพิ่มต้นไม้เข้ากับแบบจำลองเอฟเฟกต์แบบสุ่มแบบจัดกลุ่มใน Python
- GPBOOST สำหรับตัวแปรหมวดหมู่ที่มีความสามารถสูงใน Python & R
- GPBOOST สำหรับข้อมูลเศรษฐมิติเชิงพื้นที่และ AREAL ใน Python & R
- รวมการเพิ่มต้นไม้เข้ากับกระบวนการเกาส์เซียนสำหรับข้อมูลเชิงพื้นที่ใน Python & R
- GPBOOST สำหรับข้อมูลระยะยาวและแผงใน Python & R
- แบบจำลองเอฟเฟกต์แบบผสมเชิงเส้นทั่วไป (GLMMs) ใน R และ Python ด้วย gpboost
- ตัวอย่างวิธีการใช้ gpboost ใน r และ python
คู่มือการติดตั้ง CLI อธิบายวิธีการติดตั้งเวอร์ชันอินเทอร์เฟซบรรทัดคำสั่ง (CLI)
ความคิดเห็นเกี่ยวกับประสิทธิภาพการคำนวณและข้อมูลขนาดใหญ่
เอกสารที่ https://gpboost.readthedocs.io

พื้นหลังการสร้างแบบจำลอง

อัลกอริทึม GPBOOST ผสมผสานการเพิ่มต้นไม้เข้ากับรุ่น Gaussian แฝงเช่นกระบวนการเกาส์เซียน (GP) และแบบจำลองเอฟเฟกต์แบบสุ่ม สิ่งนี้ช่วยให้สามารถใช้ประโยชน์จากข้อได้เปรียบและการแก้ไขข้อเสียของทั้งแบบจำลองต้นไม้และ Gaussian แฝง ดูด้านล่างสำหรับรายการความแข็งแกร่งและจุดอ่อนของวิธีการสร้างแบบจำลองทั้งสองนี้ อัลกอริทึม GPBOOST สามารถมองเห็นได้ว่าเป็นลักษณะทั่วไปของเอฟเฟกต์แบบผสมเชิงเส้นแบบดั้งเดิม (ทั่วไป) และแบบจำลองกระบวนการเกาส์เซียนและการเพิ่มต้นไม้อิสระแบบคลาสสิก (ซึ่งมักจะมีการคาดการณ์สูงสุดสำหรับข้อมูลตาราง)

ข้อดีของอัลกอริทึม GPBOOST

เมื่อเปรียบเทียบกับเอฟเฟกต์แบบผสมเชิงเส้น (ทั่วไป) และแบบจำลองกระบวนการเกาส์เซียนอัลกอริทึม GPBoost อนุญาตให้ใช้งานได้

การสร้างแบบจำลองฟังก์ชั่นเอฟเฟกต์คงที่ในลักษณะที่ไม่ใช่พารามิเตอร์และไม่ใช่เชิงเส้นซึ่งอาจส่งผลให้แบบจำลองที่สมจริงมากขึ้นซึ่งมีความแม่นยำในการทำนายสูงกว่า

เมื่อเปรียบเทียบกับการเพิ่มอิสระแบบคลาสสิกอัลกอริทึม GPBOOST อนุญาต

การเรียนรู้ฟังก์ชั่นการทำนายที่มีประสิทธิภาพมากขึ้นซึ่งเหนือสิ่งอื่นใดสามารถแปลความแม่นยำในการทำนายที่เพิ่มขึ้น
การสร้างแบบจำลองที่มีประสิทธิภาพของตัวแปรเด็ดขาด
การสร้างแบบจำลองข้อมูลเชิงพื้นที่หรือเชิงพื้นที่เมื่อใดเช่นการทำนายเชิงพื้นที่ควรแตกต่างกันอย่างต่อเนื่องหรือราบรื่นเหนืออวกาศ

รายละเอียดการสร้างแบบจำลอง

สำหรับความน่าจะเป็นแบบเกาส์เซียน (อัลกอริทึม gpboost) สันนิษฐานว่าตัวแปรตอบสนอง (ฉลาก aka) y คือผลรวมของฟังก์ชั่นเฉลี่ยที่ไม่ใช่เชิงเส้น f (x) และเอฟเฟกต์สุ่ม ZB:

 y = F(X) + Zb + xi

โดยที่ F (x) เป็นผลรวม (= "Ensemble") ของต้นไม้ XI เป็นคำผิดพลาดที่เป็นอิสระและ x เป็นตัวแปรทำนาย (aka covariates หรือคุณสมบัติ) เอฟเฟกต์แบบสุ่ม ZB สามารถประกอบด้วย:

กระบวนการเกาส์เซียน (รวมถึงกระบวนการสัมประสิทธิ์แบบสุ่ม)
เอฟเฟกต์แบบสุ่มแบบจัดกลุ่ม (รวมถึงเอฟเฟกต์ค่าสัมประสิทธิ์แบบสุ่มที่ซ้อนกันและสุ่ม)
การรวมกันของข้างต้น

สำหรับความน่าจะเป็นที่ไม่ใช่เกาส์ (อัลกอริทึม Lagaboost) สันนิษฐานว่าตัวแปรการตอบสนอง y ตามการกระจาย P (y | m) และพารามิเตอร์ (หลายตัวแปร) m ของการแจกแจงนี้เกี่ยวข้องกับฟังก์ชันที่ไม่ใช่เชิงเส้น F (x) และเอฟเฟกต์สุ่ม ZB:

 y ~ p(y|m)
m = G(F(X) + Zb)

โดยที่ g () เป็นฟังก์ชันลิงก์ที่เรียกว่า ดูที่นี่สำหรับรายการของโอกาสที่ได้รับการสนับสนุนในปัจจุบัน p (y | m)

การประมาณหรือการฝึกอบรม แบบจำลองที่กล่าวถึงข้างต้นหมายถึงการเรียนรู้ทั้งพารามิเตอร์ความแปรปรวนร่วม (AKA Hyperparameters) ของเอฟเฟกต์แบบสุ่มและฟังก์ชันตัวทำนาย F (X) ทั้งอัลกอริทึม GPBOOST และ LAGABOOST เรียนรู้พารามิเตอร์ความแปรปรวนร่วมและเพิ่มต้นไม้ลงในวงดนตรีของต้นไม้ F (X) โดยใช้การไล่ระดับสีที่ใช้งานได้และ/หรือขั้นตอนการเพิ่มนิวตัน ดู Sigrist (2022, JMLR) และ Sigrist (2023, TPAMI) สำหรับรายละเอียดเพิ่มเติม

ความแข็งแรงและจุดอ่อนของการเพิ่มต้นไม้และเอฟเฟกต์ผสมเชิงเส้นและแบบจำลอง GP

การเพิ่มต้นไม้คลาสสิก

จุดแข็ง	ความอ่อนแอ
-ความแม่นยำในการทำนายที่ทันสมัย	- สมมติว่าเป็นอิสระตามเงื่อนไขของตัวอย่าง
-การสร้างแบบจำลองอัตโนมัติของการไม่เป็นเชิงเส้นความไม่ต่อเนื่องและการโต้ตอบลำดับสูงที่ซับซ้อน	- สร้างการคาดการณ์ที่ไม่ต่อเนื่องสำหรับเช่นข้อมูลเชิงพื้นที่
- ทนทานต่อค่าผิดปกติและความหลากหลายในหมู่ตัวแปรทำนาย	- สามารถมีปัญหากับตัวแปรหมวดหมู่ที่มีความสามารถสูง
- สเกลที่ไม่แปรเปลี่ยนไปสู่การแปลงโมโนโทนของตัวแปรทำนาย
- การจัดการค่าที่หายไปโดยอัตโนมัติในตัวแปรทำนาย

เอฟเฟกต์ผสมเชิงเส้นและโมเดลกระบวนการเกาส์เซียน (GPS) (โมเดล Gaussian แฝงแฝงอยู่)

จุดแข็ง	ความอ่อนแอ
- การทำนายความน่าจะเป็นซึ่งช่วยให้ปริมาณความไม่แน่นอน	- ฟังก์ชั่นค่าเฉลี่ยของค่าเฉลี่ยก่อนหน้า (ตัวทำนายผลคงที่)
- การรวมตัวกันของความรู้ก่อนหน้านี้ที่สมเหตุสมผล เช่นสำหรับข้อมูลเชิงพื้นที่: "ตัวอย่างปิดมีความคล้ายคลึงกันมากกว่าตัวอย่างที่ห่างไกล" และฟังก์ชั่นควรแตกต่างกันอย่างต่อเนื่อง / ราบรื่นเหนืออวกาศ
- การสร้างแบบจำลองของการพึ่งพาซึ่งเหนือสิ่งอื่นใดสามารถช่วยให้การเรียนรู้ที่มีประสิทธิภาพมากขึ้นเกี่ยวกับฟังก์ชันเอฟเฟกต์คงที่ (ตัวทำนาย)
- เอฟเฟกต์แบบสุ่มแบบจัดกลุ่มสามารถใช้สำหรับการสร้างแบบจำลองตัวแปรหมวดหมู่ที่มีความสามารถสูง

ข่าว

ดูหน้า GitHub Reasees
ตุลาคม 2565: ดีใจที่ได้ประกาศว่าบทความสหายทั้งสองได้รับการตีพิมพ์ในวารสารการวิจัยการเรียนรู้ของเครื่องจักร (JMLR) และการทำธุรกรรม IEEE เกี่ยวกับการวิเคราะห์รูปแบบและข่าวกรองเครื่องจักร (TPAMI)
04/06/2020: รุ่นแรกของ gpboost

ปัญหาเปิด - มีส่วนร่วม

ดูปัญหาเปิดเกี่ยวกับ GitHub ด้วยฉลาก การปรับปรุง

ปัญหาซอฟต์แวร์

เพิ่มการทดสอบ Python (ดูการทดสอบ R ที่สอดคล้องกัน)
การตั้งค่าสภาพแวดล้อม CI
รองรับการแปลงรุ่น GPBOOST เป็นรูปแบบโมเดล ONNX

ปัญหาระเบียบวิธี

รองรับโมเดลหลายตัวแปรเช่นการใช้ coregionalization
รองรับโมเดล AREAL สำหรับข้อมูลเชิงพื้นที่เช่นรุ่นรถยนต์และ SAR
รองรับการจำแนกประเภทหลายระดับเช่นโอกาสในการเล่นพหุภาคี
ใช้วิธีการเพิ่มเติมเช่นการคำนวณสเกลได้ดี (หน่วยความจำและเวลา) สำหรับโมเดลกระบวนการเกาส์และโมเดลเอฟเฟกต์ผสมที่มีตัวแปรการจัดกลุ่มมากกว่าหนึ่งตัวสำหรับข้อมูลที่ไม่ใช่เกาส์เซียน
รองรับน้ำหนักตัวอย่าง
รองรับระยะทางอื่นนอกเหนือจากระยะทางยุคลิด (เช่นระยะทางวงกลมที่ยอดเยี่ยม) สำหรับกระบวนการเกาส์เซียน

ปัญหาการคำนวณ

เพิ่มการสนับสนุน GPU สำหรับกระบวนการเกาส์เซียน
เพิ่มการสนับสนุน Cholmod

การอ้างอิง

Sigrist Fabio "กระบวนการ Gaussian เพิ่มขึ้น" วารสารการวิจัยการเรียนรู้ของเครื่องจักร (2022)
Sigrist Fabio "โมเดล Gaussian แฝงตัวเพิ่มขึ้น" ธุรกรรม IEEE เกี่ยวกับการวิเคราะห์รูปแบบและความฉลาดของเครื่องจักร (2023)
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-yan Liu "LIGHTGBM: ต้นไม้การตัดสินใจที่มีประสิทธิภาพสูงมากขึ้น" ความก้าวหน้าในระบบการประมวลผลข้อมูลระบบประสาท 30 (2017)
วิลเลียมส์คริสโตเฟอร์คิและคาร์ลเอ็ดเวิร์ดราสซัสเซน กระบวนการเกาส์เซียนสำหรับการเรียนรู้ของเครื่อง MIT Press, 2006
Pinheiro, Jose และ Douglas Bates แบบจำลองเอฟเฟกต์แบบผสมใน S และ S-Plus Springer Science & Business Media, 2006