GPBoost下载GPBoost源代码下载

GPBoost

C/C++

v1.5.4

下载

GPBoost图标

GPBoost：将树木培养与高斯过程和混合效应模型相结合

介绍

GPBOOST是一个软件库，用于将树木升起的过程与高斯工艺结合在一起，并将随机效应模型分组（又称混合效应模型或潜在的高斯模型）。它还允许独立地应用树木培养以及高斯工艺以及（广义）线性混合效应模型（LMMS和GLMM）。 GPBoost库主要用C ++编写，它具有C接口，并且同时存在Python软件包和R软件包。

有关更多信息，您可能想查看：

Python软件包和R软件包，包括安装说明
伴侣文章《西方人》（2022年，JMLR）和Sigrist（2023，TPAMI）用于该方法的背景
详细的python示例和R示例
主要参数：GPBoost库的最重要参数 /设置

以下博客文章：
- 在Python中将树木培养与分组的随机效应模型相结合
- Python＆r中的高心态分类变量的GPBoost
- Python＆r中的分组和面积空间计量经济学数据的GPBoost
- 在Python＆R中将树木培养与高斯过程的空间数据相结合
- python＆r中的纵向和面板数据的GPBoost
- R和Python中的广义线性混合效应模型（GLMM）与GPBoost
- 关于如何在R和Python中使用GPBoost的演示
CLI安装指南说明如何安装命令行界面（CLI）版本
关于计算效率和大数据的评论
https://gpboost.readthedocs.io的文档

建模背景

GPBoost算法将促进树木的培训与潜在高斯模型（例如高斯过程（GP）和分组的随机效应模型相结合。这允许利用培养和潜在高斯模型的优势和补救措施。有关这两种建模方法的优势列表，请参见下文。 GPBoost算法可以看作是传统（广义）线性混合效应和高斯过程模型和经典独立树木促进的概括（通常对表格数据的预测最高）。

GPBoost算法的优点

与（广义）线性混合效应和高斯过程模型相比，GPBoost算法允许

以非参数和非线性方式对固定效应函数进行建模，这可能会导致更真实的模型，从而具有更高的预测准确性

与经典的独立提升相比，GPBoost算法允许

对预测函数的更有效学习，除其他外，这些功能可以转化为提高的预测准确性
高心电图分类变量的有效建模
在空间预测应连续或平稳地变化时，对空间或时空数据进行建模

建模细节

对于高斯的可能性（GPBoost算法） ，假定响应变量（aka标记）y是潜在的非线性平均函数f（x）和随机效应zb的总和。

 y = F(X) + Zb + xi

其中f（x）是树的总和（=“集合”），xi是一个独立的错误术语，x是预测变量（又称协变量或特征）。 ZB的随机效应当前可以包括：

高斯过程（包括随机系数过程）
分组的随机效应（包括嵌套，交叉和随机系数效应）
上述组合

对于非高斯的可能性（Lagaboost算法） ，假定响应变量y遵循分布p（y | m），并且该分布的（潜在多元）参数m（可能是多变量的）参数与非线性函数F（x）和随机效应zb：

 y ~ p(y|m)
m = G(F(X) + Zb)

其中g（）是所谓的链接函数。有关当前支持的可能性p（y | M）的列表，请参见此处。

估计或训练上述模型意味着学习随机效应和预测函数f（x）的协方差参数（又称超参数）。 GPBoost和Lagaboost算法都迭代学习协方差参数，并使用功能性梯度和/或牛顿提升步骤在树F（x）的集合中添加树。有关更多详细信息，请参见Sigrist（2022，JMLR）和Sigrist（2023，TPAMI）。

培养树木和线性混合效应以及GP模型的强度和弱点

古典独立树培养

优势	弱点
- 最先进的预测准确性	- 假设样品的条件独立性
- 非线性，不连续性和复杂的高阶相互作用的自动建模	- 产生对空间数据的不连续预测
- 与预测变量之间的异常值和多重共线性的鲁棒性	- 高心电图分类变量可能会遇到困难
- 对预测变量的单调转换的比例不变
- 预测变量中的丢失值自动处理

线性混合效应和高斯工艺（GPS）模型（又称潜在高斯模型）

优势	弱点
- 概率预测，可以进行不确定性定量	- 零或线性先验平均值（预测，固定效果）函数
- 合理的先验知识。例如，用于空间数据：“关闭样品比远的样本更相似”，并且功能应在太空上连续 /平稳地变化
- 依赖性建模，除其他外，还可以更有效地学习固定效果（预测指标）功能
- 分组的随机效应可用于建模高心电图分类变量

消息

查看GitHub版本页面
2022年10月：很高兴地宣布，这两篇文章发表在《机器学习研究杂志》（JMLR）和IEEE图案分析和机器智能方面（TPAMI）
04/06/2020：GPBoost的第一版

开放问题 - 贡献

使用增强标签查看GitHub上的开放问题

软件问题

添加Python测试（请参阅相应的R测试）
建立CI环境
支持将GPBoost模型转换为ONNX模型格式

方法论问题

支持多元模型，例如，使用核心区域化
支持针对空间数据（例如汽车和SAR模型）的模型
支持多类分类，即，多项式可能性
实施更多的方法，以使高斯过程模型的计算良好（内存和时间）和混合效应模型具有多个分组变量的非高斯数据
支持样品重量
支持除欧几里得距离以外的其他距离（例如，圆形距离）

计算问题

添加GPU支持高斯流程
添加Cholmod支持

参考

西移民法比奥。 “高斯过程提升”。机器学习研究杂志（2022）。
西移民法比奥。 “潜在高斯模型提升”。 IEEE关于模式分析和机器智能的交易（2023）。
Guolin Ke，Qi Meng，Thomas Finley，Taifeng Wang，Wei Chen，Weidong MA，Qiwei Ye，Tie-Yan Liu。 “ LightGBM：高效的梯度提升决策树”。神经信息处理系统的进展30（2017）。
威廉姆斯，克里斯托弗·基和卡尔·爱德华·拉斯穆森。用于机器学习的高斯过程。麻省理工学院出版社，2006年。
Pinheiro，Jose和Douglas Bates。 S和S-Plus中的混合效应模型。 Springer Science＆Business Media，2006年。