
GPBoost adalah perpustakaan perangkat lunak untuk menggabungkan penambah pohon dengan proses Gaussian dan model efek efek acak (alias model efek campuran atau model Gaussian laten). Ini juga memungkinkan untuk menerapkan secara independen penambah pohon serta proses Gaussian dan model efek campuran linier (umum) (LMM dan GLMM). Perpustakaan GPBoost sebagian besar ditulis dalam C ++, memiliki antarmuka C, dan ada paket Python dan paket R.
Untuk informasi lebih lanjut, Anda mungkin ingin melihat:
Posting blog berikut:
Panduan Instalasi CLI yang menjelaskan cara menginstal versi antarmuka baris perintah (CLI)
Komentar tentang efisiensi komputasi dan data besar
Dokumentasi di https://gpboost.readthedocs.io
Algoritma GPBoost menggabungkan penambah pohon dengan model Gaussian laten seperti proses Gaussian (GP) dan dikelompokkan model efek acak. Hal ini memungkinkan untuk memanfaatkan keunggulan dan memperbaiki kelemahan dari kedua model Gaussian yang meningkatkan pohon dan laten; Lihat di bawah untuk daftar kekuatan dan kelemahan dari dua pendekatan pemodelan ini. Algoritma GPBoost dapat dilihat sebagai generalisasi efek campuran linier tradisional (umum) dan model proses Gaussian dan penambah pohon independen klasik (yang sering memiliki prediksi tertinggi untuk data tabel).
Dibandingkan dengan efek campuran linier (umum) dan model proses Gaussian, algoritma GPBoost memungkinkan untuk
Dibandingkan dengan peningkatan independen klasik, algoritma GPBoost memungkinkan
Untuk kemungkinan Gaussian (algoritma GPBoost) , diasumsikan bahwa variabel respons (label alias) y adalah jumlah dari fungsi rata-rata non-linear yang berpotensi f (x) dan efek acak ZB:
y = F(X) + Zb + xi
di mana f (x) adalah jumlah (= "ensemble") dari pohon, Xi adalah istilah kesalahan independen, dan x adalah variabel prediktor (alias kovariat atau fitur). Efek acak ZB saat ini dapat terdiri dari:
Untuk kemungkinan non-Gaussian (algoritma lagaboost) , diasumsikan bahwa variabel respons y mengikuti distribusi p (y | m) dan bahwa parameter (yang berpotensi multivariat) m dari distribusi ini terkait dengan fungsi non-linear F (x) dan efek acak ZB:
y ~ p(y|m)
m = G(F(X) + Zb)
di mana g () adalah fungsi tautan yang disebut. Lihat di sini untuk daftar kemungkinan yang saat ini didukung P (Y | M).
Memperkirakan atau melatih model yang disebutkan di atas berarti mempelajari kedua parameter kovarians (alias hiperparameter) dari efek acak dan fungsi prediktor f (x). Baik GPBoost dan algoritma lagaboost secara iteratif mempelajari parameter kovarians dan menambahkan pohon ke ensemble pohon f (x) menggunakan gradien fungsional dan/atau langkah peningkatan Newton. Lihat Sigrist (2022, JMLR) dan Sigrist (2023, Tpami) untuk lebih jelasnya.
| Kekuatan | Kelemahan |
|---|---|
| -Keakuratan prediksi canggih | - mengasumsikan independensi sampel bersyarat |
| -Pemodelan otomatis non-linearitas, diskontinuitas, dan interaksi tingkat tinggi yang kompleks | - Menghasilkan prediksi terputus untuk, misalnya, data spasial |
| - Kuat untuk outlier dan multikolinieritas di antara variabel prediktor | - Dapat mengalami kesulitan dengan variabel kategori kardinalitas tinggi |
| - Skala-invarian ke transformasi monoton dari variabel prediktor | |
| - Penanganan otomatis nilai yang hilang dalam variabel prediktor |
| Kekuatan | Kelemahan |
|---|---|
| - Prediksi probabilistik yang memungkinkan kuantifikasi ketidakpastian | - Fungsi rata -rata nol atau linier sebelumnya (prediktor, efek tetap) |
| - Penggabungan pengetahuan sebelumnya yang wajar. Misalnya untuk data spasial: "Tutup sampel lebih mirip satu sama lain daripada sampel yang jauh" dan fungsi harus bervariasi terus menerus / lancar di atas ruang | |
| - Pemodelan ketergantungan yang, antara lain, dapat memungkinkan pembelajaran yang lebih efisien dari fungsi efek tetap (prediktor) | |
| - Efek acak yang dikelompokkan dapat digunakan untuk memodelkan variabel kategori kardinalitas tinggi |
Proyek ini dilisensikan berdasarkan ketentuan Lisensi Apache 2.0. Lihat lisensi untuk informasi lebih lanjut.