GPBoost下載GPBoost源代碼下載

GPBoost

C/C++

v1.5.4

下載

GPBoost圖標

GPBoost：將樹木培養與高斯過程和混合效應模型相結合

介紹

GPBOOST是一個軟件庫，用於將樹木升起的過程與高斯工藝結合在一起，並將隨機效應模型分組（又稱混合效應模型或潛在的高斯模型）。它還允許獨立地應用樹木培養以及高斯工藝以及（廣義）線性混合效應模型（LMMS和GLMM）。 GPBoost庫主要用C ++編寫，它具有C接口，並且同時存在Python軟件包和R軟件包。

有關更多信息，您可能想查看：

Python軟件包和R軟件包，包括安裝說明
伴侶文章《西方人》（2022年，JMLR）和Sigrist（2023，TPAMI）用於該方法的背景
詳細的python示例和R示例
主要參數：GPBoost庫的最重要參數 /設置

以下博客文章：
- 在Python中將樹木培養與分組的隨機效應模型相結合
- Python＆r中的高心態分類變量的GPBoost
- Python＆r中的分組和麵積空間計量經濟學數據的GPBoost
- 在Python＆R中將樹木培養與高斯過程的空間數據相結合
- python＆r中的縱向和麵板數據的GPBoost
- R和Python中的廣義線性混合效應模型（GLMM）與GPBoost
- 關於如何在R和Python中使用GPBoost的演示
CLI安裝指南說明如何安裝命令行界面（CLI）版本
關於計算效率和大數據的評論
https://gpboost.readthedocs.io的文檔

建模背景

GPBoost算法將促進樹木的培訓與潛在高斯模型（例如高斯過程（GP）和分組的隨機效應模型相結合。這允許利用培養和潛在高斯模型的優勢和補救措施。有關這兩種建模方法的優勢列表，請參見下文。 GPBoost算法可以看作是傳統（廣義）線性混合效應和高斯過程模型和經典獨立樹木促進的概括（通常對錶格數據的預測最高）。

GPBoost算法的優點

與（廣義）線性混合效應和高斯過程模型相比，GPBoost算法允許

以非參數和非線性方式對固定效應函數進行建模，這可能會導致更真實的模型，從而具有更高的預測準確性

與經典的獨立提升相比，GPBoost算法允許

對預測函數的更有效學習，除其他外，這些功能可以轉化為提高的預測準確性
高心電圖分類變量的有效建模
在空間預測應連續或平穩地變化時，對空間或時空數據進行建模

建模細節

對於高斯的可能性（GPBoost算法） ，假定響應變量（aka標記）y是潛在的非線性平均函數f（x）和隨機效應zb的總和。

 y = F(X) + Zb + xi

其中f（x）是樹的總和（=“集合”），xi是一個獨立的錯誤術語，x是預測變量（又稱協變量或特徵）。 ZB的隨機效應當前可以包括：

高斯過程（包括隨機係數過程）
分組的隨機效應（包括嵌套，交叉和隨機係數效應）
上述組合

對於非高斯的可能性（Lagaboost算法） ，假定響應變量y遵循分佈p（y | m），並且該分佈的（潛在多元）參數m（可能是多變量的）參數與非線性函數F（x）和隨機效應zb：

 y ~ p(y|m)
m = G(F(X) + Zb)

其中g（）是所謂的鏈接函數。有關當前支持的可能性p（y | M）的列表，請參見此處。

估計或訓練上述模型意味著學習隨機效應和預測函數f（x）的協方差參數（又稱超參數）。 GPBoost和Lagaboost算法都迭代學習協方差參數，並使用功能性梯度和/或牛頓提升步驟在樹F（x）的集合中添加樹。有關更多詳細信息，請參見Sigrist（2022，JMLR）和Sigrist（2023，TPAMI）。

培養樹木和線性混合效應以及GP模型的強度和弱點

古典獨立樹培養

優勢	弱點
- 最先進的預測準確性	- 假設樣品的條件獨立性
- 非線性，不連續性和復雜的高階相互作用的自動建模	- 產生對空間數據的不連續預測
- 與預測變量之間的異常值和多重共線性的魯棒性	- 高心電圖分類變量可能會遇到困難
- 對預測變量的單調轉換的比例不變
- 預測變量中的丟失值自動處理

線性混合效應和高斯工藝（GPS）模型（又稱潛在高斯模型）

優勢	弱點
- 概率預測，可以進行不確定性定量	- 零或線性先驗平均值（預測，固定效果）函數
- 合理的先驗知識。例如，用於空間數據：“關閉樣品比遠的樣本更相似”，並且功能應在太空上連續 /平穩地變化
- 依賴性建模，除其他外，還可以更有效地學習固定效果（預測指標）功能
- 分組的隨機效應可用於建模高心電圖分類變量

消息

查看GitHub版本頁面
2022年10月：很高興地宣布，這兩篇文章發表在《機器學習研究雜誌》（JMLR）和IEEE圖案分析和機器智能方面（TPAMI）
04/06/2020：GPBoost的第一版

開放問題 - 貢獻

使用增強標籤查看GitHub上的開放問題

軟件問題

添加Python測試（請參閱相應的R測試）
建立CI環境
支持將GPBoost模型轉換為ONNX模型格式

方法論問題

支持多元模型，例如，使用核心區域化
支持針對空間數據（例如汽車和SAR模型）的模型
支持多類分類，即，多項式可能性
實施更多的方法，以使高斯過程模型的計算良好（內存和時間）和混合效應模型具有多個分組變量的非高斯數據
支持樣品重量
支持除歐幾里得距離以外的其他距離（例如，圓形距離）

計算問題

添加GPU支持高斯流程
添加Cholmod支持

參考

西移民法比奧。 “高斯過程提升”。機器學習研究雜誌（2022）。
西移民法比奧。 “潛在高斯模型提升”。 IEEE關於模式分析和機器智能的交易（2023）。
Guolin Ke，Qi Meng，Thomas Finley，Taifeng Wang，Wei Chen，Weidong MA，Qiwei Ye，Tie-Yan Liu。 “ LightGBM：高效的梯度提升決策樹”。神經信息處理系統的進展30（2017）。
威廉姆斯，克里斯托弗·基和卡爾·愛德華·拉斯穆森。用於機器學習的高斯過程。麻省理工學院出版社，2006年。
Pinheiro，Jose和Douglas Bates。 S和S-Plus中的混合效應模型。 Springer Science＆Business Media，2006年。