
GPBoostは、ツリーブーストとガウスプロセスとグループ化されたランダムエフェクトモデル(別名混合効果モデルまたは潜在ガウスモデル)を組み合わせるためのソフトウェアライブラリです。また、ツリーブースト、ガウスプロセス、および(一般化された)線形混合効果モデル(LMMおよびGLMM)を独立して適用することもできます。 GPBoostライブラリは主にC ++で記述されており、Cインターフェイスがあり、 PythonパッケージとRパッケージの両方が存在します。
詳細については、次をご覧ください。
次のブログ投稿:
CLIインストールガイドコマンドラインインターフェイス(CLI)バージョンのインストール方法を説明する
計算効率と大規模なデータに関するコメント
https://gpboost.readthedocs.ioのドキュメント
GPBoostアルゴリズムは、ツリーブーストとガウスプロセス(GP)やグループ化されたランダム効果モデルなどの潜在ガウスモデルと組み合わせています。これにより、樹木を高めることと潜在的なガウスモデルの両方の利点と治療の欠点を活用できます。これら2つのモデリングアプローチの強度と短所のリストについては、以下を参照してください。 GPBoostアルゴリズムは、従来の(一般化された)線形混合効果とガウスプロセスモデルと、古典的な独立したツリーブースト(多くの場合、表形式データの予測が最も高い)の両方の一般化と見なすことができます。
(一般化された)線形混合効果およびガウスプロセスモデルと比較して、GPBoostアルゴリズムは
古典的な独立したブーストと比較して、GPBoostアルゴリズムは
ガウスの尤度(gpboostアルゴリズム)の場合、応答変数(ラベル)yは潜在的に非線形平均関数f(x)とランダム効果zbの合計であると想定されています。
y = F(X) + Zb + xi
ここで、f(x)は木のsum(= "ensemble")であり、xiは独立したエラー項であり、xは予測変数(別名共変量または特徴)です。 ZBが現在構成できるランダムエフェクト:
非ガウスの尤度(ラガボーストアルゴリズム)の場合、応答変数は分布p(y | m)に続くと想定され、この分布の(潜在的に多変量)パラメーターは非線形関数f(x)およびランダム効果zbに関連していると想定されています。
y ~ p(y|m)
m = G(F(X) + Zb)
ここで、g()はいわゆるリンク関数です。現在サポートされている尤度P(y | m)のリストについては、こちらをご覧ください。
上記のモデルを推定またはトレーニングすることは、ランダム効果の共分散パラメーター(別名ハイパーパラメーター)と予測関数F(x)の両方を学習することを意味します。 gpboostとlagaboostアルゴリズムの両方が、共分散パラメーターを繰り返し学習し、機能勾配および/またはニュートンブーストステップを使用してツリーのアンサンブルf(x)にツリーを追加します。詳細については、Sigrist(2022、JMLR)およびSigrist(2023、Tpami)を参照してください。
| 強み | 弱点 |
|---|---|
| - 最先端の予測精度 | - サンプルの条件付き独立性を想定しています |
| - 非線形性、不連続性、複雑な高次相互作用の自動モデリング | - たとえば、空間データの不連続な予測を生成します |
| - 予測変数間の外れ値と多重共線性への堅牢性 | - 高筋肉性のカテゴリ変数で困難を抱える可能性があります |
| - 予測変数の変換から単調なスケール不変 | |
| - 予測変数の欠損値の自動処理 |
| 強み | 弱点 |
|---|---|
| - 不確実性の定量化を可能にする確率的予測 | - ゼロまたは線形の事前平均(予測因子、固定効果)関数 |
| - 合理的な事前知識の組み込み。たとえば、空間データの場合:「近接サンプルは遠くのサンプルよりも互いに類似しています」と、関数は空間で連続 /スムーズに異なる必要があります | |
| - 特に、固定効果(予測因子)関数のより効率的な学習を可能にすることができる依存関係のモデリング | |
| - グループ化されたランダム効果は、高等層のカテゴリ変数のモデリングに使用できます |
このプロジェクトは、Apacheライセンス2.0の条件に基づいてライセンスされています。詳細については、ライセンスを参照してください。