Descarga de GPBoost - Descargar el código fuente GPBoost

GPBoost

C/C++

v1.5.4

Descargar

Ícono de gpboost

GPBOost: combinación de refuerzo de árboles con procesos gaussianos y modelos de efectos mixtos

Tabla de contenido

Introducción
Fondo de modelado
Noticias
Problemas abiertos - contribuir
Referencias
Licencia

Introducción

GPBOOST es una biblioteca de software para combinar el refuerzo de los árboles con el proceso gaussiano y los modelos de efectos aleatorios agrupados (también conocidos como modelos de efectos mixtos o modelos gaussianos latentes). También permite aplicar de forma independiente el impulso de árboles, así como el proceso gaussiano y los modelos (generalizados) de efectos mixtos (LMMS y GLMMS). La biblioteca GPBOost se escribe predominantemente en C ++, tiene una interfaz C y existe un paquete Python y un paquete R.

Para obtener más información, es posible que desee echar un vistazo:

El paquete Python y el paquete R que incluyen instrucciones de instalación
Los artículos complementarios Sigrist (2022, JMLR) y Sigrist (2023, TPAMI) para obtener antecedentes sobre la metodología
Ejemplos de pitón detallados y ejemplos R
Parámetros principales : los parámetros / configuraciones más importantes para la biblioteca GPBOost

Las siguientes publicaciones de blog :
- Combine el refuerzo de los árboles con modelos de efectos aleatorios agrupados en Python
- GPBOost para variables categóricas de alta cardinalidad en Python & R
- GPBOost para datos econométricos espaciales agrupados y areales en Python & R
- Combinar el refuerzo de los árboles con procesos gaussianos para datos espaciales en Python & R
- GPBOost para datos longitudinales y de panel en Python & R
- Modelos de efectos mixtos lineales generalizados (GLMM) en R y Python con GPBOost
- Demo sobre cómo se puede usar GPBOost en R y Python
La Guía de instalación de CLI explica cómo instalar la versión de interfaz de línea de comando (CLI)
Comentarios sobre eficiencia computacional y grandes datos
La documentación en https://gpboost.readthedocs.io

Fondo de modelado

El algoritmo GPBOost combina el refuerzo de los árboles con modelos gaussianos latentes como el proceso gaussiano (GP) y los modelos de efectos aleatorios agrupados. Esto permite aprovechar las ventajas y remediar los inconvenientes de los modelos gaussianos de refuerzo de árboles y latentes; Vea a continuación una lista de fuerza y debilidades de estos dos enfoques de modelado. El algoritmo GPBOost puede verse como una generalización de los efectos mixtos lineales tradicionales (generalizados) y los modelos de procesos gaussianos y el impulso clásico de árboles independientes (que a menudo tiene la mayor predicción para los datos tabulares).

Ventajas del algoritmo GPBOost

En comparación con los efectos mixtos lineales (generalizados) y los modelos de procesos gaussianos, el algoritmo GPBOost permite

Modelado de la función de efectos fijos de manera no paramétrica y no lineal que puede dar como resultado modelos más realistas que, en consecuencia, tienen una mayor precisión de predicción

En comparación con el impulso clásico independiente, el algoritmo GPBOost permite

Aprendizaje más eficiente de las funciones predictoras que, entre otras cosas, pueden traducirse en una mayor precisión de la predicción
Modelado eficiente de variables categóricas de alta cardinalidad
Modelado de datos espaciales o espaciales cuando, por ejemplo, las predicciones espaciales deben variar continuamente o suavemente sobre el espacio

Detalles de modelado

Para las probabilidades gaussianas (algoritmo GPBOost) , se supone que la variable de respuesta (también conocida como etiqueta) y es la suma de una función media potencialmente no lineal F (x) y los efectos aleatorios ZB:

 y = F(X) + Zb + xi

Donde F (x) es una suma (= "conjunto") de los árboles, Xi es un término de error independiente, y X son variables predictoras (también conocidas como covariables o características). Los efectos aleatorios que ZB puede consistir actualmente:

Procesos gaussianos (incluidos procesos de coeficientes aleatorios)
Efectos aleatorios agrupados (incluidos efectos de coeficientes anidados, cruzados y aleatorios)
Combinaciones de lo anterior

Para las probabilidades no gaussianas (algoritmo lagaboost) , se supone que la variable de respuesta y sigue una distribución P (y | m) y que un parámetro (potencialmente multivariante) M de esta distribución está relacionado con una función no lineal F (x) y zb de efectos aleatorios:

 y ~ p(y|m)
m = G(F(X) + Zb)

donde g () es una función de enlace llamada. Consulte aquí para obtener una lista de las probabilidades actualmente compatibles P (Y | M).

Estimación o capacitación de los modelos mencionados anteriormente significa aprender tanto los parámetros de covarianza (también conocido como hiperparámetros) de los efectos aleatorios como la función predictor F (x). Tanto el GPBOost como los algoritmos Lagaboost aprenden de forma iterativamente los parámetros de covarianza y agregan un árbol al conjunto de los árboles f (x) utilizando un gradiente funcional y/o un paso de impulso de Newton. Ver Sigrist (2022, JMLR) y Sigrist (2023, TPAMI) para obtener más detalles.

Fuerza y debilidades de los efectos mixtos lineales y que aumentan los árboles y los modelos de GP

Reforzador clásico independiente

Fortalezas	Debilidades
-Precisión de predicción de vanguardia	- Asume la independencia condicional de muestras
-Modelado automático de no linealidades, discontinuidades e interacciones complejas de alto orden	- produce predicciones discontinuas para, por ejemplo, datos espaciales
- robusto para los valores atípicos y la multicolinealidad entre las variables predictoras	- puede tener dificultades con variables categóricas de alta cardinalidad
- Transformaciones de las variables predictoras de la escala-invariante
- Manejo automático de valores faltantes en variables predictoras

Efectos mixtos lineales y modelos de proceso gaussiano (GPS) (también conocido como modelos gaussianos latentes)

Fortalezas	Debilidades
- Predicciones probabilísticas que permiten la cuantificación de la incertidumbre	- Función cero o una media previa lineal (predictor, efectos fijos)
- Incorporación de conocimiento previo razonable. Por ejemplo, para datos espaciales: "Las muestras cercanas son más similares entre sí que las muestras distantes" y una función debería variar continuamente / suavemente sobre el espacio
- Modelado de la dependencia que, entre otras cosas, puede permitir un aprendizaje más eficiente de la función de efectos fijos (predictor)
- Los efectos aleatorios agrupados se pueden usar para modelar variables categóricas de alta cardinalidad

Noticias

Vea la página de lanzamientos de GitHub
Octubre de 2022: Me alegra anunciar que los dos artículos complementarios se publican en el Journal of Machine Learning Research (JMLR) e IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
06/06/2020: Primer lanzamiento de GPBOost

Problemas abiertos - contribuir

Vea los problemas abiertos en GitHub con una etiqueta de mejora

Problemas de software

Agregar pruebas de pitón (ver las pruebas R correspondientes)
Configurar un entorno CI
Apoya la conversión de modelos GPBOost en formato de modelo ONNX

Problemas metodológicos

Admitir modelos multivariados, por ejemplo, utilizando corregionalización
Apoya a los modelos de área para datos espaciales como modelos de automóviles y SAR
Soporte de clasificación multiclase, es decir, probabilidades multinomiales
Implementar más enfoques de tal manera que los cálculos escalen bien (memoria y tiempo) para modelos de procesos gaussianos y modelos de efectos mixtos con más de una variable de agrupación para datos no gaussianos
Soporte de pesas de muestra
Apoya otras distancias además de la distancia euclidiana (por ejemplo, gran distancia de círculo) para procesos gaussianos

Problemas computacionales

Agregar soporte de GPU para procesos gaussianos
Agregar soporte de Cholmod

Referencias

Sigrist Fabio. "Boosting Gaussian Process". Journal of Machine Learning Research (2022).
Sigrist Fabio. "Aumento de modelo gaussiano latente". Transacciones IEEE en análisis de patrones e inteligencia de máquinas (2023).
Guolin KE, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-yan Liu. "LightGBM: un árbol de decisión de impulso de gradiente altamente eficiente". Avances en Sistemas de Procesamiento de Información Neural 30 (2017).
Williams, Christopher Ki y Carl Edward Rasmussen. Procesos gaussianos para el aprendizaje automático . MIT Press, 2006.
Pinheiro, José y Douglas Bates. Modelos de efectos mixtos en S y S-plus . Springer Science & Business Media, 2006.