
GPBOOST是一个软件库,用于将树木升起的过程与高斯工艺结合在一起,并将随机效应模型分组(又称混合效应模型或潜在的高斯模型)。它还允许独立地应用树木培养以及高斯工艺以及(广义)线性混合效应模型(LMMS和GLMM)。 GPBoost库主要用C ++编写,它具有C接口,并且同时存在Python软件包和R软件包。
有关更多信息,您可能想查看:
以下博客文章:
CLI安装指南说明如何安装命令行界面(CLI)版本
关于计算效率和大数据的评论
https://gpboost.readthedocs.io的文档
GPBoost算法将促进树木的培训与潜在高斯模型(例如高斯过程(GP)和分组的随机效应模型相结合。这允许利用培养和潜在高斯模型的优势和补救措施。有关这两种建模方法的优势列表,请参见下文。 GPBoost算法可以看作是传统(广义)线性混合效应和高斯过程模型和经典独立树木促进的概括(通常对表格数据的预测最高)。
与(广义)线性混合效应和高斯过程模型相比,GPBoost算法允许
与经典的独立提升相比,GPBoost算法允许
对于高斯的可能性(GPBoost算法) ,假定响应变量(aka标记)y是潜在的非线性平均函数f(x)和随机效应zb的总和。
y = F(X) + Zb + xi
其中f(x)是树的总和(=“集合”),xi是一个独立的错误术语,x是预测变量(又称协变量或特征)。 ZB的随机效应当前可以包括:
对于非高斯的可能性(Lagaboost算法) ,假定响应变量y遵循分布p(y | m),并且该分布的(潜在多元)参数m(可能是多变量的)参数与非线性函数F(x)和随机效应zb:
y ~ p(y|m)
m = G(F(X) + Zb)
其中g()是所谓的链接函数。有关当前支持的可能性p(y | M)的列表,请参见此处。
估计或训练上述模型意味着学习随机效应和预测函数f(x)的协方差参数(又称超参数)。 GPBoost和Lagaboost算法都迭代学习协方差参数,并使用功能性梯度和/或牛顿提升步骤在树F(x)的集合中添加树。有关更多详细信息,请参见Sigrist(2022,JMLR)和Sigrist(2023,TPAMI)。
| 优势 | 弱点 |
|---|---|
| - 最先进的预测准确性 | - 假设样品的条件独立性 |
| - 非线性,不连续性和复杂的高阶相互作用的自动建模 | - 产生对空间数据的不连续预测 |
| - 与预测变量之间的异常值和多重共线性的鲁棒性 | - 高心电图分类变量可能会遇到困难 |
| - 对预测变量的单调转换的比例不变 | |
| - 预测变量中的丢失值自动处理 |
| 优势 | 弱点 |
|---|---|
| - 概率预测,可以进行不确定性定量 | - 零或线性先验平均值(预测,固定效果)函数 |
| - 合理的先验知识。例如,用于空间数据:“关闭样品比远的样本更相似”,并且功能应在太空上连续 /平稳地变化 | |
| - 依赖性建模,除其他外,还可以更有效地学习固定效果(预测指标)功能 | |
| - 分组的随机效应可用于建模高心电图分类变量 |
该项目是根据Apache许可证2.0的条款获得许可的。有关更多信息,请参见许可证。