Téléchargement GPBoost - Téléchargement du code source GPBoost

GPBoost

C/C++

v1.5.4

Télécharger

Icône gpboost

GPBOost: combinaison de renforcement des arbres avec des modèles de processus gaussiens et d'effets mixtes

Table des matières

Introduction
Contexte de modélisation
Nouvelles
Problèmes ouverts - Contribuer
Références
Licence

Introduction

GPBOost est une bibliothèque de logiciels pour combiner la mise en stimulation des arbres avec le processus gaussien et les modèles d'effets aléatoires groupés (aka modèles à effets mixtes ou modèles gaussiens latents). Il permet également d'appliquer indépendamment la mise en stimulation des arbres ainsi que le processus gaussien et les modèles à effets mixtes linéaires (généralisés) (LMMS et GLMM). La bibliothèque GPBOost est principalement écrite en C ++, elle a une interface C, et il existe à la fois un package Python et un package R.

Pour plus d'informations, vous voudrez peut-être jeter un œil:

Le package Python et le package R, y compris les instructions d'installation
Les articles compagnons Sigrist (2022, JMLR) et Sigrist (2023, TPAMI) pour un contexte sur la méthodologie
Exemples de python détaillés et exemples R
Paramètres principaux : les paramètres / paramètres les plus importants pour la bibliothèque GPBOost

Les articles de blog suivants:
- Combinez la mise en stimulation des arbres avec des modèles d'effets aléatoires groupés dans Python
- Gpboost pour les variables catégorielles de haute-cardinalité dans Python & R
- Gpboost pour les données économétriques spatiales groupées et surfacées dans Python & R
- Combiner la mise en stimulation des arbres avec des processus gaussiens pour les données spatiales dans Python & R
- Gpboost pour les données longitudinales et panels en python & r
- Modèles à effets mixtes linéaires généralisés (GLMMS) en R et Python avec GPBOost
- Démo sur la façon dont GPBoost peut être utilisé dans R et Python
Le Guide d'installation CLI expliquant comment installer la version de l'interface de la ligne de commande (CLI)
Commentaires sur l'efficacité informatique et les grandes données
La documentation sur https://gpboost.readthedocs.io

Contexte de modélisation

L'algorithme GPBOost combine la mise en stimulation des arbres avec des modèles gaussiens latents tels que le processus gaussien (GP) et les modèles d'effets aléatoires groupés. Cela permet de tirer parti des avantages et de remède les inconvénients des modèles gaussiens qui se renforcent des arbres et de Gaussian; Voir ci-dessous pour une liste de force et de faiblesses de ces deux approches de modélisation. L'algorithme GPBOOST peut être considéré comme une généralisation des effets mixtes linéaires traditionnels (généralisés) et des modèles de processus gaussiens et de la mise en stimulation des arbres indépendants classiques (qui a souvent la prédiction la plus élevée pour les données tabulaires).

Avantages de l'algorithme GPBOost

Par rapport aux effets mixtes linéaires (généralisés) et aux modèles de processus gaussiens, l'algorithme GPBOost permet

Modélisation de la fonction d'effets fixes d'une manière non paramétrique et non linéaire qui peut entraîner des modèles plus réalistes qui ont donc une précision de prédiction plus élevée

Par rapport à l'augmentation indépendante classique, l'algorithme GPBOost permet

Apprentissage plus efficace des fonctions prédictives qui, entre autres, peuvent se traduire par une précision de prédiction accrue
Modélisation efficace des variables catégorielles à haute cardinalité
Modélisation des données spatiales ou spatio-temporelles lorsque, par exemple, les prédictions spatiales devraient varier en continu ou en douceur sur l'espace

Détails de modélisation

Pour la vraisemblance gaussienne (algorithme GPBOost) , il est supposé que la variable de réponse (AKA Label) y est la somme d'une fonction moyenne potentiellement non linéaire F (x) et des effets aléatoires ZB:

 y = F(X) + Zb + xi

Lorsque f (x) est une somme (= "ensemble") des arbres, Xi est un terme d'erreur indépendant et x sont des variables prédictives (aka covariables ou caractéristiques). Les effets aléatoires ZB peuvent actuellement consister à:

Processus gaussiens (y compris les processus de coefficient aléatoire)
Effets aléatoires groupés (y compris les effets de coefficient imbriqués, croisés et aléatoires)
Combinaisons de ce qui précède

Pour la probabilité non gaussienne (algorithme lagaboost) , il est supposé que la variable de réponse y suit une distribution p (y | m) et qu'un paramètre (potentiellement multivarié) m de cette distribution est lié à une fonction non linéaire F (x) et à effets aléatoires Zb:

 y ~ p(y|m)
m = G(F(X) + Zb)

où g () est une fonction dite de liaison. Voir ici pour une liste de vraisemblances actuellement prises en charge P (y | m).

L'estimation ou la formation des modèles susmentionnés signifie l'apprentissage à la fois des paramètres de covariance (aka hyperparamètres) des effets aléatoires et de la fonction prédictive F (x). Les algorithmes GPBoost et Lagaboost apprennent itérativement les paramètres de covariance et ajoutent un arbre à l'ensemble des arbres F (x) en utilisant un gradient fonctionnel et / ou une étape de renforcement de Newton. Voir Sigrist (2022, JMLR) et Sigrist (2023, TPAMI) pour plus de détails.

Force et faiblesses des effets mixtes et mixtes linéaires et modèles GP

Boosting des arbres classiques indépendants

Forces	Faiblesse
- Précision de prédiction de pointe	- suppose l'indépendance conditionnelle des échantillons
- Modélisation automatique des non-linéarités, des discontinuités et des interactions complexes d'ordre élevé	- produit des prédictions discontinues pour, par exemple, des données spatiales
- robuste aux valeurs aberrantes et multicolinéaries parmi les variables prédictives	- peut avoir des difficultés avec des variables catégorielles à haute cardinalité
- Invariation de l'échelle aux transformations monotones des variables prédictives
- Gestion automatique des valeurs manquantes dans les variables prédictives

Modèles linéaires d'effets mixtes et de processus gaussiens (GPS) (aka modèles gaussiens latents)

Forces	Faiblesse
- Prédictions probabilistes qui permet la quantification de l'incertitude	- Zéro ou une fonction de moyenne antérieure linéaire (prédicteur, effets fixes)
- Incorporation de connaissances antérieures raisonnables. Par exemple pour les données spatiales: "Les échantillons de fermer sont plus similaires les uns aux autres que les échantillons à distance" et une fonction devrait varier en continu / en douceur sur l'espace
- Modélisation de la dépendance qui, entre autres, peut permettre un apprentissage plus efficace de la fonction des effets fixes (prédicteur)
- Les effets aléatoires groupés peuvent être utilisés pour la modélisation des variables catégorielles de haute cardinalité

Nouvelles

Voir la page GitHub Release
Octobre 2022: heureux d'annoncer que les deux articles compagnons sont publiés dans le Journal of Machine Learning Research (JMLR) et les transactions IEEE sur l'analyse des modèles et l'intelligence machine (TPAMI)
04/06/2020: première version de GPBoost

Problèmes ouverts - Contribuer

Voir les problèmes ouverts sur GitHub avec une étiquette d'amélioration

Problèmes logiciels

Ajouter des tests Python (voir les tests R correspondants)
Configuration d'un environnement CI
Prise en charge de la conversion des modèles GPBOost en format de modèle ONNX

Problèmes méthodologiques

Prise en charge des modèles multivariés, par exemple, en utilisant la coregionalisation
Support des modèles surfacés pour les données spatiales telles que les modèles de voiture et de SAR
Prise en charge de la classification multiclasse, c'est-à-dire des probabilités multinomiales
Mettez en œuvre plus d'approches telles que les calculs évoluent bien (mémoire et temps) pour les modèles de processus gaussiens et les modèles à effets mixtes avec plus d'une variable de regroupement pour les données non gaussiennes
Soutenir les poids d'échantillon
Soutenez les autres distances en plus de la distance euclidienne (par exemple, grande distance du cercle) pour les processus gaussiens

Problèmes de calcul

Ajouter la prise en charge du GPU pour les processus gaussiens
Ajouter le support Cholmod

Références

Sigrist Fabio. "Boosting de processus gaussien". Journal of Machine Learning Research (2022).
Sigrist Fabio. "Modèle gaussien latent Boosting". Transactions IEEE sur l'analyse des modèles et l'intelligence machine (2023).
Guolin KE, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-Yan Liu. "LightGBM: un arbre de décision de renforcement du gradient très efficace". Avances dans les systèmes de traitement de l'information neuronaux 30 (2017).
Williams, Christopher Ki et Carl Edward Rasmussen. Processus gaussiens pour l'apprentissage automatique . MIT Press, 2006.
Pinheiro, Jose et Douglas Bates. Modèles à effets mixtes en S et S-plus . Springer Science & Business Media, 2006.