
GPBOOST是一個軟件庫,用於將樹木升起的過程與高斯工藝結合在一起,並將隨機效應模型分組(又稱混合效應模型或潛在的高斯模型)。它還允許獨立地應用樹木培養以及高斯工藝以及(廣義)線性混合效應模型(LMMS和GLMM)。 GPBoost庫主要用C ++編寫,它具有C接口,並且同時存在Python軟件包和R軟件包。
有關更多信息,您可能想查看:
以下博客文章:
CLI安裝指南說明如何安裝命令行界面(CLI)版本
關於計算效率和大數據的評論
https://gpboost.readthedocs.io的文檔
GPBoost算法將促進樹木的培訓與潛在高斯模型(例如高斯過程(GP)和分組的隨機效應模型相結合。這允許利用培養和潛在高斯模型的優勢和補救措施。有關這兩種建模方法的優勢列表,請參見下文。 GPBoost算法可以看作是傳統(廣義)線性混合效應和高斯過程模型和經典獨立樹木促進的概括(通常對錶格數據的預測最高)。
與(廣義)線性混合效應和高斯過程模型相比,GPBoost算法允許
與經典的獨立提升相比,GPBoost算法允許
對於高斯的可能性(GPBoost算法) ,假定響應變量(aka標記)y是潛在的非線性平均函數f(x)和隨機效應zb的總和。
y = F(X) + Zb + xi
其中f(x)是樹的總和(=“集合”),xi是一個獨立的錯誤術語,x是預測變量(又稱協變量或特徵)。 ZB的隨機效應當前可以包括:
對於非高斯的可能性(Lagaboost算法) ,假定響應變量y遵循分佈p(y | m),並且該分佈的(潛在多元)參數m(可能是多變量的)參數與非線性函數F(x)和隨機效應zb:
y ~ p(y|m)
m = G(F(X) + Zb)
其中g()是所謂的鏈接函數。有關當前支持的可能性p(y | M)的列表,請參見此處。
估計或訓練上述模型意味著學習隨機效應和預測函數f(x)的協方差參數(又稱超參數)。 GPBoost和Lagaboost算法都迭代學習協方差參數,並使用功能性梯度和/或牛頓提升步驟在樹F(x)的集合中添加樹。有關更多詳細信息,請參見Sigrist(2022,JMLR)和Sigrist(2023,TPAMI)。
| 優勢 | 弱點 |
|---|---|
| - 最先進的預測準確性 | - 假設樣品的條件獨立性 |
| - 非線性,不連續性和復雜的高階相互作用的自動建模 | - 產生對空間數據的不連續預測 |
| - 與預測變量之間的異常值和多重共線性的魯棒性 | - 高心電圖分類變量可能會遇到困難 |
| - 對預測變量的單調轉換的比例不變 | |
| - 預測變量中的丟失值自動處理 |
| 優勢 | 弱點 |
|---|---|
| - 概率預測,可以進行不確定性定量 | - 零或線性先驗平均值(預測,固定效果)函數 |
| - 合理的先驗知識。例如,用於空間數據:“關閉樣品比遠的樣本更相似”,並且功能應在太空上連續 /平穩地變化 | |
| - 依賴性建模,除其他外,還可以更有效地學習固定效果(預測指標)功能 | |
| - 分組的隨機效應可用於建模高心電圖分類變量 |
該項目是根據Apache許可證2.0的條款獲得許可的。有關更多信息,請參見許可證。