Unduh GPBoost - Unduh Kode Sumber GPBoost

GPBoost

C/C++

v1.5.4

Unduh

Ikon GPBoost

GPBoost: Menggabungkan penambah pohon dengan proses Gaussian dan model efek campuran

Daftar isi

Perkenalan
Latar belakang pemodelan
Berita
Masalah terbuka - berkontribusi
Referensi
Lisensi

Perkenalan

GPBoost adalah perpustakaan perangkat lunak untuk menggabungkan penambah pohon dengan proses Gaussian dan model efek efek acak (alias model efek campuran atau model Gaussian laten). Ini juga memungkinkan untuk menerapkan secara independen penambah pohon serta proses Gaussian dan model efek campuran linier (umum) (LMM dan GLMM). Perpustakaan GPBoost sebagian besar ditulis dalam C ++, memiliki antarmuka C, dan ada paket Python dan paket R.

Untuk informasi lebih lanjut, Anda mungkin ingin melihat:

Paket Python dan paket R termasuk instruksi instalasi
Artikel pendamping Sigrist (2022, JMLR) dan Sigrist (2023, TPAMI) untuk latar belakang metodologi
Contoh -contoh Python terperinci dan contoh r
Parameter Utama : Parameter / Pengaturan Paling Penting untuk Perpustakaan GPBoost

Posting blog berikut:
- Gabungkan penambah pohon dengan model efek acak yang dikelompokkan dalam python
- GPBoost untuk variabel kategori kardinalitas tinggi di Python & R
- GPBOOST untuk data ekonometrik spasial yang dikelompokkan dan areal di Python & R
- Gabungkan penambah pohon dengan proses Gaussian untuk data spasial di Python & R
- GPBoost untuk data longitudinal & panel di Python & R
- Model efek campuran linier umum (GLMM) dalam R dan Python dengan GPBoost
- Demo tentang bagaimana GPBoost dapat digunakan dalam R dan Python
Panduan Instalasi CLI yang menjelaskan cara menginstal versi antarmuka baris perintah (CLI)
Komentar tentang efisiensi komputasi dan data besar
Dokumentasi di https://gpboost.readthedocs.io

Latar belakang pemodelan

Algoritma GPBoost menggabungkan penambah pohon dengan model Gaussian laten seperti proses Gaussian (GP) dan dikelompokkan model efek acak. Hal ini memungkinkan untuk memanfaatkan keunggulan dan memperbaiki kelemahan dari kedua model Gaussian yang meningkatkan pohon dan laten; Lihat di bawah untuk daftar kekuatan dan kelemahan dari dua pendekatan pemodelan ini. Algoritma GPBoost dapat dilihat sebagai generalisasi efek campuran linier tradisional (umum) dan model proses Gaussian dan penambah pohon independen klasik (yang sering memiliki prediksi tertinggi untuk data tabel).

Keuntungan dari algoritma GPBoost

Dibandingkan dengan efek campuran linier (umum) dan model proses Gaussian, algoritma GPBoost memungkinkan untuk

Memodelkan fungsi efek tetap dengan cara non-parametrik dan non-linear yang dapat menghasilkan model yang lebih realistis yang, akibatnya, memiliki akurasi prediksi yang lebih tinggi

Dibandingkan dengan peningkatan independen klasik, algoritma GPBoost memungkinkan

Pembelajaran yang lebih efisien dari fungsi prediktor yang, antara lain, dapat diterjemahkan menjadi peningkatan akurasi prediksi
Pemodelan efisien variabel kategori kardinalitas tinggi
pemodelan data spasial atau spatio-temporal ketika, misalnya, prediksi spasial harus bervariasi terus menerus, atau lancar, di atas ruang

Detail Pemodelan

Untuk kemungkinan Gaussian (algoritma GPBoost) , diasumsikan bahwa variabel respons (label alias) y adalah jumlah dari fungsi rata-rata non-linear yang berpotensi f (x) dan efek acak ZB:

 y = F(X) + Zb + xi

di mana f (x) adalah jumlah (= "ensemble") dari pohon, Xi adalah istilah kesalahan independen, dan x adalah variabel prediktor (alias kovariat atau fitur). Efek acak ZB saat ini dapat terdiri dari:

Proses Gaussian (termasuk proses koefisien acak)
Efek acak yang dikelompokkan (termasuk efek koefisien bersarang, dilintasi, dan acak)
Kombinasi di atas

Untuk kemungkinan non-Gaussian (algoritma lagaboost) , diasumsikan bahwa variabel respons y mengikuti distribusi p (y | m) dan bahwa parameter (yang berpotensi multivariat) m dari distribusi ini terkait dengan fungsi non-linear F (x) dan efek acak ZB:

 y ~ p(y|m)
m = G(F(X) + Zb)

di mana g () adalah fungsi tautan yang disebut. Lihat di sini untuk daftar kemungkinan yang saat ini didukung P (Y | M).

Memperkirakan atau melatih model yang disebutkan di atas berarti mempelajari kedua parameter kovarians (alias hiperparameter) dari efek acak dan fungsi prediktor f (x). Baik GPBoost dan algoritma lagaboost secara iteratif mempelajari parameter kovarians dan menambahkan pohon ke ensemble pohon f (x) menggunakan gradien fungsional dan/atau langkah peningkatan Newton. Lihat Sigrist (2022, JMLR) dan Sigrist (2023, Tpami) untuk lebih jelasnya.

Kekuatan dan kelemahan efek campuran pohon dan linier dan model GP

Penambah pohon independen klasik

Kekuatan	Kelemahan
-Keakuratan prediksi canggih	- mengasumsikan independensi sampel bersyarat
-Pemodelan otomatis non-linearitas, diskontinuitas, dan interaksi tingkat tinggi yang kompleks	- Menghasilkan prediksi terputus untuk, misalnya, data spasial
- Kuat untuk outlier dan multikolinieritas di antara variabel prediktor	- Dapat mengalami kesulitan dengan variabel kategori kardinalitas tinggi
- Skala-invarian ke transformasi monoton dari variabel prediktor
- Penanganan otomatis nilai yang hilang dalam variabel prediktor

Efek campuran linier dan model proses Gaussian (GPS) (alias model Gaussian laten)

Kekuatan	Kelemahan
- Prediksi probabilistik yang memungkinkan kuantifikasi ketidakpastian	- Fungsi rata -rata nol atau linier sebelumnya (prediktor, efek tetap)
- Penggabungan pengetahuan sebelumnya yang wajar. Misalnya untuk data spasial: "Tutup sampel lebih mirip satu sama lain daripada sampel yang jauh" dan fungsi harus bervariasi terus menerus / lancar di atas ruang
- Pemodelan ketergantungan yang, antara lain, dapat memungkinkan pembelajaran yang lebih efisien dari fungsi efek tetap (prediktor)
- Efek acak yang dikelompokkan dapat digunakan untuk memodelkan variabel kategori kardinalitas tinggi

Berita

Lihat halaman Rilis GitHub
Oktober 2022: Senang mengumumkan bahwa dua artikel pendamping diterbitkan dalam Journal of Machine Learning Research (JMLR) dan transaksi IEEE pada analisis pola dan kecerdasan mesin (TPAMI)
04/06/2020: Rilis pertama GPBoost

Masalah terbuka - berkontribusi

Lihat Masalah Terbuka di GitHub dengan Label Peningkatan

Masalah perangkat lunak

Tambahkan tes Python (lihat tes R yang sesuai)
Menyiapkan Lingkungan CI
Dukungan Konversi Model GPBoost ke Format Model ONNX

Masalah metodologis

Dukung Model Multivariat, Misalnya, Menggunakan Coregionalisasi
Mendukung model areal untuk data spasial seperti model mobil dan SAR
Mendukung Klasifikasi Multiclass, IE, kemungkinan multinomial
Menerapkan lebih banyak pendekatan sedemikian rupa sehingga komputasi skala sumur (memori dan waktu) untuk model proses Gaussian dan model efek campuran dengan lebih dari satu variabel pengelompokan untuk data non-Gaussian
Mendukung bobot sampel
Dukung jarak lain selain jarak Euclidean (misalnya, jarak lingkaran besar) untuk proses Gaussian

Masalah komputasi

Tambahkan dukungan GPU untuk proses Gaussian
Tambahkan Dukungan Cholmod

Referensi

Sigrist Fabio. "Meningkatkan Proses Gaussian". Jurnal Penelitian Pembelajaran Mesin (2022).
Sigrist Fabio. "Model Gaussian Laten Meningkatkan". Transaksi IEEE tentang Analisis Pola dan Kecerdasan Mesin (2023).
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-yan Liu. "LightGBM: Gradien yang sangat efisien meningkatkan pohon keputusan". Kemajuan dalam Sistem Pemrosesan Informasi Saraf 30 (2017).
Williams, Christopher Ki, dan Carl Edward Rasmussen. Proses Gaussian untuk Pembelajaran Mesin . MIT Press, 2006.
Pinheiro, Jose, dan Douglas Bates. Model efek campuran dalam S dan S-PLUS . Springer Science & Business Media, 2006.