Download do GPBoost - Download do código fonte GPBoost

GPBoost

C/C++

v1.5.4

Baixar

Ícone GPBoost

GPBOOST: Combinando o aumento de árvores com o processo gaussiano e modelos de efeitos mistos

Índice

Introdução
Antecedentes de modelagem
Notícias
Questões abertas - contribuir
Referências
Licença

Introdução

O GPBoost é uma biblioteca de software para combinar o aumento de árvores com o processo gaussiano e os modelos de efeitos aleatórios agrupados (também conhecidos como modelos de efeitos mistos ou modelos latentes gaussianos). Ele também permite aplicar independentemente o aumento de árvores, bem como o processo gaussiano e modelos de efeitos mistos lineares (generalizados) (LMMs e GlmMs). A biblioteca GPBoost está predominantemente escrita em C ++, possui uma interface C e existe um pacote Python e um pacote R.

Para mais informações, você pode querer dar uma olhada:

O pacote Python e o pacote R, incluindo instruções de instalação
Os artigos complementares Sigrist (2022, JMLR) e Sigrist (2023, TPAMI) para a base da metodologia
Exemplos detalhados de Python e R Exemplos
Parâmetros principais : os parâmetros / configurações mais importantes para a biblioteca GPBoost

As postagens seguintes do blog :
- Combine o aumento de árvores com modelos de efeitos aleatórios agrupados no Python
- GPBoost para variáveis categóricas de alta cardinalidade em Python & R
- GPBOOST para dados econométricos espaciais agrupados e areal em Python & r
- Combine o aumento de árvores com processos gaussianos para dados espaciais em Python & r
- GPBoost para dados longitudinais e de painel em Python & r
- Modelos generalizados de efeitos mistas lineares (GLMMs) em r e python com gpboost
- Demonstração sobre como o GPBoost pode ser usado em R e Python
O guia de instalação da CLI explicando como instalar a versão da interface da linha de comando (CLI)
Comentários sobre eficiência computacional e dados grandes
A documentação em https://gpboost.readthedocs.io

Antecedentes de modelagem

O algoritmo GPBoost combina o aumento de árvores com modelos gaussianos latentes, como o processo gaussiano (GP) e os modelos de efeitos aleatórios agrupados. Isso permite alavancar as vantagens e remediar desvantagens dos modelos gaussianos e latentes; Veja abaixo uma lista de força e fraquezas dessas duas abordagens de modelagem. O algoritmo GPBoost pode ser visto como uma generalização dos efeitos mistos lineares tradicionais (generalizados) e dos modelos de processos gaussianos e o aumento de árvores independentes clássicas (que geralmente têm a maior previsão para dados tabulares).

Vantagens do algoritmo

Comparado aos efeitos mistos lineares (generalizados) e modelos de processos gaussianos, o algoritmo GPBoost permite

Modelando a função de efeitos fixos de maneira não paramétrica e não linear, o que pode resultar em modelos mais realistas que, consequentemente, têm maior precisão de previsão

Comparado ao aumento independente clássico, o algoritmo GPBoost permite

aprendizado mais eficiente de funções preditivas que, entre outras coisas, podem se traduzir em maior precisão de previsão
Modelagem eficiente de variáveis categóricas de alta cardinalidade
Modelando dados espaciais ou espaço-temporais quando, por exemplo, as previsões espaciais devem variar continuamente ou suavemente, sobre o espaço

Detalhes da modelagem

Para as probabilidades gaussianas (algoritmo GPBoost) , supõe-se que a variável de resposta (também conhecida como rótulo) y é a soma de uma função média potencialmente não linear F (x) e efeitos aleatórios ZB:

 y = F(X) + Zb + xi

onde f (x) é uma soma (= "conjunto") de árvores, xi é um termo de erro independente e x são variáveis preditores (também conhecidas como covariáveis ou recursos). Os efeitos aleatórios ZB podem consistir atualmente em:

Processos gaussianos (incluindo processos de coeficiente aleatório)
Efeitos aleatórios agrupados (incluindo efeitos aninhados, cruzados e de coeficiente aleatório)
Combinações do acima

Para probabilidades não gaussianas (algoritmo de lagaboost) , supõe-se que a variável de resposta y segue uma distribuição p (y | m) e que um parâmetro (potencialmente multivariado) M desta distribuição está relacionado a uma função não linear F (x) e efeitos aleatórios zb:

 y ~ p(y|m)
m = G(F(X) + Zb)

onde g () é a chamada função de link. Veja aqui uma lista de probabilidades atualmente suportadas P (y | m).

Estimando ou treinando os modelos acima mencionados significa aprender os parâmetros de covariância (também conhecidos como hiperparâmetros) dos efeitos aleatórios e da função preditora F (x). Os algoritmos GPBoost e o Lagaboost aprendem iterativamente os parâmetros de covariância e adicionam uma árvore ao conjunto de árvores f (x) usando um gradiente funcional e/ou uma etapa de reforço de Newton. Veja Sigrist (2022, JMLR) e Sigrist (2023, TPAMI) para obter mais detalhes.

Força e fraquezas dos efeitos mistos lineares e lineares e modelos GP

Aumentação de árvores independente clássica

Pontos fortes	Fraquezas
-Precisão de previsão de última geração	- assume a independência condicional de amostras
-Modelagem automática de não linearidades, descontinuidades e interações complexas de alta ordem	- produz previsões descontínuas para, por exemplo, dados espaciais
- robustos para outliers e multicolinearidade entre variáveis preditivas	- pode ter dificuldade com variáveis categóricas de alta cardinalidade
- Transformações invariantes para escala para monótono de variáveis preditivas
- Manipulação automática de valores ausentes em variáveis preditivas

Modelos lineares de efeitos mistas e processos gaussianos (GPS) (também conhecidos como modelos gaussianos latentes)

Pontos fortes	Fraquezas
- Previsões probabilísticas que permitem quantificação de incerteza	- zero ou uma média anterior (preditora, efeitos fixos) função
- Incorporação de conhecimento prévio razoável. Por exemplo, para dados espaciais: "As amostras próximas são mais semelhantes entre si do que as amostras distantes" e uma função deve variar continuamente / suavemente sobre o espaço
- Modelagem de dependência que, entre outras coisas, pode permitir uma aprendizagem mais eficiente da função de efeitos fixos (preditor)
- Efeitos aleatórios agrupados podem ser usados para modelar variáveis categóricas de alta cardinalidade

Notícias

Veja a página do GitHub Lankes
Outubro de 2022: Fico feliz em anunciar que os dois artigos complementares são publicados no Journal of Machine Learning Research (JMLR) e IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
04/06/2020: Primeira liberação do GPBoost

Questões abertas - contribuir

Veja as questões abertas no GitHub com um rótulo de aprimoramento

Problemas de software

Adicionar testes Python (consulte os testes R correspondentes)
Configurando um ambiente de CI
Apoie a conversão de modelos GPBoost em formato de modelo ONNX

Questões metodológicas

Suportar modelos multivariados, por exemplo, usando coregionalização
Apoiar modelos Areal para dados espaciais, como modelos de carro e SAR
Apoie a classificação multiclasse, ou seja, probabilidade multinomial
Implementar mais abordagens de modo que os cálculos escalem bem (memória e tempo) para modelos de processos gaussianos e modelos de efeitos mistos com mais de uma variável de agrupamento para dados não gaussianos
Suporte a pesos da amostra
Apoie outras distâncias além da distância euclidiana (por exemplo, grande distância do círculo) para processos gaussianos

Questões computacionais

Adicione o suporte da GPU para processos gaussianos
Adicione o suporte a cholmod

Referências

Sigrist Fabio. "Boosting do processo gaussiano". Journal of Machine Learning Research (2022).
Sigrist Fabio. "Modelo Gaussiano Latente Boosting". IEEE Transações sobre análise de padrões e inteligência de máquina (2023).
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-Yan Liu. "LightGBM: uma árvore de decisão de aumento de gradiente altamente eficiente". Avanços nos sistemas de processamento de informações neurais 30 (2017).
Williams, Christopher Ki e Carl Edward Rasmussen. Processos gaussianos para aprendizado de máquina . MIT Press, 2006.
Pinheiro, José e Douglas Bates. Modelos de efeitos mistos em S e S-plus . Springer Science & Business Media, 2006.