GPBoostダウンロードGPBoostソースコードのダウンロード

GPBoost

C/C++

v1.5.4

ダウンロード

gpboostアイコン

GPBoost：ツリーブーストとガウスプロセスと混合効果モデルを組み合わせる

導入

GPBoostは、ツリーブーストとガウスプロセスとグループ化されたランダムエフェクトモデル（別名混合効果モデルまたは潜在ガウスモデル）を組み合わせるためのソフトウェアライブラリです。また、ツリーブースト、ガウスプロセス、および（一般化された）線形混合効果モデル（LMMおよびGLMM）を独立して適用することもできます。 GPBoostライブラリは主にC ++で記述されており、Cインターフェイスがあり、 PythonパッケージとRパッケージの両方が存在します。

詳細については、次をご覧ください。

インストール手順を含むPythonパッケージとRパッケージ
方法論の背景のためのコンパニオン記事Sigrist（2022、JMLR）およびSigrist（2023、Tpami）
詳細なPythonの例とRの例
主なパラメーター：gpboostライブラリの最も重要なパラメーター /設定

次のブログ投稿：
- Pythonのグループブーストとグループ化されたランダムエフェクトモデルを組み合わせます
- Python＆rの高等循環性カテゴリ変数のgpboost
- Python＆rのグループ化された空間空間経済データのためのgpboost
- Python＆rの空間データのために、ツリーブーストとガウスプロセスを組み合わせます
- Python＆rの縦断的およびパネルデータ用のgpboost
- GPBoostを使用したRおよびPythonの一般化された線形混合効果モデル（GLMMS）
- rおよびpythonでgpboostを使用する方法に関するデモ
CLIインストールガイドコマンドラインインターフェイス（CLI）バージョンのインストール方法を説明する
計算効率と大規模なデータに関するコメント
https://gpboost.readthedocs.ioのドキュメント

背景のモデリング

GPBoostアルゴリズムは、ツリーブーストとガウスプロセス（GP）やグループ化されたランダム効果モデルなどの潜在ガウスモデルと組み合わせています。これにより、樹木を高めることと潜在的なガウスモデルの両方の利点と治療の欠点を活用できます。これら2つのモデリングアプローチの強度と短所のリストについては、以下を参照してください。 GPBoostアルゴリズムは、従来の（一般化された）線形混合効果とガウスプロセスモデルと、古典的な独立したツリーブースト（多くの場合、表形式データの予測が最も高い）の両方の一般化と見なすことができます。

GPBoostアルゴリズムの利点

（一般化された）線形混合効果およびガウスプロセスモデルと比較して、GPBoostアルゴリズムは

固定効果関数のモデリングノンパラメトリックおよび非線形の方法で、より現実的なモデルをもたらす可能性があり、その結果、予測精度が高くなります

古典的な独立したブーストと比較して、GPBoostアルゴリズムは

とりわけ、予測精度の向上に変換できる予測機能のより効率的な学習
高筋肉性のカテゴリ変数の効率的なモデリング
空間的予測が空間上で継続的に、またはスムーズに変化する必要がある場合、空間的または空間的データのモデリング

詳細のモデリング

ガウスの尤度（gpboostアルゴリズム）の場合、応答変数（ラベル）yは潜在的に非線形平均関数f（x）とランダム効果zbの合計であると想定されています。

 y = F(X) + Zb + xi

ここで、f（x）は木のsum（= "ensemble"）であり、xiは独立したエラー項であり、xは予測変数（別名共変量または特徴）です。 ZBが現在構成できるランダムエフェクト：

ガウスプロセス（ランダム係数プロセスを含む）
グループ化されたランダム効果（ネスト、交差、およびランダム係数効果を含む）
上記の組み合わせ

非ガウスの尤度（ラガボーストアルゴリズム）の場合、応答変数は分布p（y | m）に続くと想定され、この分布の（潜在的に多変量）パラメーターは非線形関数f（x）およびランダム効果zbに関連していると想定されています。

 y ~ p(y|m)
m = G(F(X) + Zb)

ここで、g（）はいわゆるリンク関数です。現在サポートされている尤度P（y | m）のリストについては、こちらをご覧ください。

上記のモデルを推定またはトレーニングすることは、ランダム効果の共分散パラメーター（別名ハイパーパラメーター）と予測関数F（x）の両方を学習することを意味します。 gpboostとlagaboostアルゴリズムの両方が、共分散パラメーターを繰り返し学習し、機能勾配および/またはニュートンブーストステップを使用してツリーのアンサンブルf（x）にツリーを追加します。詳細については、Sigrist（2022、JMLR）およびSigrist（2023、Tpami）を参照してください。

ツリーブーストと線形混合効果とGPモデルの強度と短所

古典的な独立したツリーブースト

強み	弱点
- 最先端の予測精度	- サンプルの条件付き独立性を想定しています
- 非線形性、不連続性、複雑な高次相互作用の自動モデリング	- たとえば、空間データの不連続な予測を生成します
- 予測変数間の外れ値と多重共線性への堅牢性	- 高筋肉性のカテゴリ変数で困難を抱える可能性があります
- 予測変数の変換から単調なスケール不変
- 予測変数の欠損値の自動処理

線形混合効果とガウスプロセス（GPS）モデル（別名潜在ガウスモデル）

強み	弱点
- 不確実性の定量化を可能にする確率的予測	- ゼロまたは線形の事前平均（予測因子、固定効果）関数
- 合理的な事前知識の組み込み。たとえば、空間データの場合：「近接サンプルは遠くのサンプルよりも互いに類似しています」と、関数は空間で連続 /スムーズに異なる必要があります
- 特に、固定効果（予測因子）関数のより効率的な学習を可能にすることができる依存関係のモデリング
- グループ化されたランダム効果は、高等層のカテゴリ変数のモデリングに使用できます

ニュース

GitHubリリースページを参照してください
2022年10月：2つのコンパニオン記事がJournal of Machine Learning Research（JMLR）およびIEEEトランザクションに掲載されていることを発表してうれしいです。
04/06/2020：GPBoostの最初のリリース

オープンな問題 - 貢献します

拡張ラベルを備えたGitHubのオープンな問題を参照してください

ソフトウェアの問題

Pythonテストを追加します（対応するRテストを参照）
CI環境のセットアップ
GPBoostモデルのONNXモデル形式への変換をサポートします

方法論的問題

Coregionalizationを使用して、多変量モデルをサポートします
CARやSARモデルなどの空間データの面積モデルをサポートする
マルチクラス分類、すなわち、多項尤度をサポートします
ガウスプロセスモデルと、非ガウスデータに対して複数のグループ化変数を持つガウスプロセスモデルと混合効果モデルの計算が適切にスケーリングされるように、より多くのアプローチを実装する
サンプルの重みをサポートします
ガウスプロセスのユークリッド距離（例えば、大円距離）以外の距離をサポートする

計算上の問題

ガウスプロセスのGPUサポートを追加します
Cholmodサポートを追加します

参照

シグリストファビオ。「ガウスプロセスブースト」。 Journal of Machine Learning Research （2022）。
シグリストファビオ。「潜在ガウスモデルのブースト」。パターン分析とマシンインテリジェンスに関するIEEEトランザクション（2023）。
Guolin Ke、Qi Meng、Thomas Finley、Taifeng Wang、Wei Chen、Weidong MA、Qiwei Ye、Tie-yan Liu。「LightGBM：非常に効率的なグラデーションブースト決定ツリー」。神経情報処理システムの進歩30（2017）。
ウィリアムズ、クリストファー・キ、カール・エドワード・ラスムッセン。機械学習のためのガウスプロセス。 MIT Press、2006年。
ピンヘイロ、ホセ、ダグラスベイツ。 SおよびS-PLUの混合効果モデル。 Springer Science＆Business Media、2006年。