
GPBOost est une bibliothèque de logiciels pour combiner la mise en stimulation des arbres avec le processus gaussien et les modèles d'effets aléatoires groupés (aka modèles à effets mixtes ou modèles gaussiens latents). Il permet également d'appliquer indépendamment la mise en stimulation des arbres ainsi que le processus gaussien et les modèles à effets mixtes linéaires (généralisés) (LMMS et GLMM). La bibliothèque GPBOost est principalement écrite en C ++, elle a une interface C, et il existe à la fois un package Python et un package R.
Pour plus d'informations, vous voudrez peut-être jeter un œil:
Les articles de blog suivants:
Le Guide d'installation CLI expliquant comment installer la version de l'interface de la ligne de commande (CLI)
Commentaires sur l'efficacité informatique et les grandes données
La documentation sur https://gpboost.readthedocs.io
L'algorithme GPBOost combine la mise en stimulation des arbres avec des modèles gaussiens latents tels que le processus gaussien (GP) et les modèles d'effets aléatoires groupés. Cela permet de tirer parti des avantages et de remède les inconvénients des modèles gaussiens qui se renforcent des arbres et de Gaussian; Voir ci-dessous pour une liste de force et de faiblesses de ces deux approches de modélisation. L'algorithme GPBOOST peut être considéré comme une généralisation des effets mixtes linéaires traditionnels (généralisés) et des modèles de processus gaussiens et de la mise en stimulation des arbres indépendants classiques (qui a souvent la prédiction la plus élevée pour les données tabulaires).
Par rapport aux effets mixtes linéaires (généralisés) et aux modèles de processus gaussiens, l'algorithme GPBOost permet
Par rapport à l'augmentation indépendante classique, l'algorithme GPBOost permet
Pour la vraisemblance gaussienne (algorithme GPBOost) , il est supposé que la variable de réponse (AKA Label) y est la somme d'une fonction moyenne potentiellement non linéaire F (x) et des effets aléatoires ZB:
y = F(X) + Zb + xi
Lorsque f (x) est une somme (= "ensemble") des arbres, Xi est un terme d'erreur indépendant et x sont des variables prédictives (aka covariables ou caractéristiques). Les effets aléatoires ZB peuvent actuellement consister à:
Pour la probabilité non gaussienne (algorithme lagaboost) , il est supposé que la variable de réponse y suit une distribution p (y | m) et qu'un paramètre (potentiellement multivarié) m de cette distribution est lié à une fonction non linéaire F (x) et à effets aléatoires Zb:
y ~ p(y|m)
m = G(F(X) + Zb)
où g () est une fonction dite de liaison. Voir ici pour une liste de vraisemblances actuellement prises en charge P (y | m).
L'estimation ou la formation des modèles susmentionnés signifie l'apprentissage à la fois des paramètres de covariance (aka hyperparamètres) des effets aléatoires et de la fonction prédictive F (x). Les algorithmes GPBoost et Lagaboost apprennent itérativement les paramètres de covariance et ajoutent un arbre à l'ensemble des arbres F (x) en utilisant un gradient fonctionnel et / ou une étape de renforcement de Newton. Voir Sigrist (2022, JMLR) et Sigrist (2023, TPAMI) pour plus de détails.
| Forces | Faiblesse |
|---|---|
| - Précision de prédiction de pointe | - suppose l'indépendance conditionnelle des échantillons |
| - Modélisation automatique des non-linéarités, des discontinuités et des interactions complexes d'ordre élevé | - produit des prédictions discontinues pour, par exemple, des données spatiales |
| - robuste aux valeurs aberrantes et multicolinéaries parmi les variables prédictives | - peut avoir des difficultés avec des variables catégorielles à haute cardinalité |
| - Invariation de l'échelle aux transformations monotones des variables prédictives | |
| - Gestion automatique des valeurs manquantes dans les variables prédictives |
| Forces | Faiblesse |
|---|---|
| - Prédictions probabilistes qui permet la quantification de l'incertitude | - Zéro ou une fonction de moyenne antérieure linéaire (prédicteur, effets fixes) |
| - Incorporation de connaissances antérieures raisonnables. Par exemple pour les données spatiales: "Les échantillons de fermer sont plus similaires les uns aux autres que les échantillons à distance" et une fonction devrait varier en continu / en douceur sur l'espace | |
| - Modélisation de la dépendance qui, entre autres, peut permettre un apprentissage plus efficace de la fonction des effets fixes (prédicteur) | |
| - Les effets aléatoires groupés peuvent être utilisés pour la modélisation des variables catégorielles de haute cardinalité |
Ce projet est sous licence en vertu des termes de l'Apache License 2.0. Voir la licence pour plus d'informations.