
GPBOOST ist eine Softwarebibliothek zur Kombination von Baumsteigerungen mit Gaußschen Prozes und gruppierten Modellen für zufällige Effekte (auch bekannt als Modelle für gemischte Effekte oder latente Gaußsche Modelle). Es ermöglicht auch die unabhängig Anwendung von Baumsteigerungen sowie Gaußschen Prozessen und (verallgemeinerten) linearen gemischten Effektmodellen (LMMs und GLMM). Die GPBOOST -Bibliothek ist überwiegend in C ++ geschrieben, eine C -Schnittstelle und es gibt sowohl ein Python -Paket als auch ein R -Paket .
Für weitere Informationen möchten Sie sich vielleicht ansehen:
Die folgenden Blog -Beiträge :
Die CLI -Installationshandbuch erläutert, wie die Befehlszeilenschnittstellenversion (CLI) installiert werden
Kommentare zu Recheneffizienz und großen Daten
Die Dokumentation unter https://gpboost.readthedocs.io
Der GPBOOST-Algorithmus kombiniert Baumanleihen mit latenten Gaußschen Modellen wie Gaußschen Prozes (GP) und gruppierten Modellen mit zufälligen Effekten. Dies ermöglicht es, Vorteile zu nutzen und Nachteile sowohl von Baumanleihen als auch von latenten Gaußschen Modellen zu beheben. Im Folgenden finden Sie eine Liste von Stärke und Schwächen dieser beiden Modellierungsansätze. Der GPBOOST-Algorithmus kann sowohl als Generalisierung herkömmlicher (generalisierter) linearer gemischter Effekte als auch als Gaußsche Prozessmodelle und klassischer unabhängiger Baumoostierung angesehen werden (was häufig die höchste Vorhersage für tabellarische Daten aufweist).
Im Vergleich zu (verallgemeinerten) linearen gemischten Effekten und Gaußschen Prozessmodellen erlaubt der GPBOOST -Algorithmus
Im Vergleich zum klassischen unabhängigen Boosting erlaubt der GPBoost -Algorithmus
Bei Gaußschen Wahrscheinlichkeiten (GPBOOST-Algorithmus) wird angenommen, dass die Antwortvariable (auch bekannt als Label) y die Summe einer potenziell nichtlinearen mittleren Funktion F (x) und zufällige Effekte ZB ist:
y = F(X) + Zb + xi
Wenn f (x) eine Summe (= "Ensemble") von Bäumen ist, ist XI ein unabhängiger Fehlerbegriff und x Prädiktorvariablen (auch bekannt als Kovariaten oder Merkmale). Die zufälligen Effekte ZB können derzeit bestehen:
Für nicht-gaußische Wahrscheinlichkeiten (Lagaboost-Algorithmus) wird angenommen, dass die Antwortvariable y einer Verteilung P (y | m) folgt und dass ein (potenziell multivariater) Parameter m dieser Verteilung mit einer nichtlinearen Funktion F (x) und zufälliger Effekte ZB zusammenhängt:
y ~ p(y|m)
m = G(F(X) + Zb)
wo g () eine sogenannte Verbindungsfunktion ist. Hier finden Sie eine Liste der derzeit unterstützten Wahrscheinlichkeiten P (y | m).
Das Schätzung oder Training der oben genannten Modelle bedeutet, sowohl die Kovarianzparameter (auch als Hyperparameter) der Zufallseffekte als auch die Prädiktorfunktion F (x) zu lernen. Sowohl der GPBOOST- als auch die Lagaboost -Algorithmen lernen iterativ die Kovarianzparameter und fügen dem Ensemble der Bäume F (x) mit einem Funktionsgradienten und/oder einem Newton -Boosting -Schritt hinzu. Weitere Informationen finden Sie unter Sigrist (2022, JMLR) und Sigrist (2023, TPAMI).
| Stärken | Schwächen |
|---|---|
| -hochmoderne Vorhersagegenauigkeit | - nimmt eine bedingte Unabhängigkeit von Proben an |
| -Automatische Modellierung von Nichtlinearitäten, Diskontinuitäten und komplexen Wechselwirkungen mit hoher Ordnung | - erzeugt diskontinuierliche Vorhersagen für, z. B. räumliche Daten |
| - robust für Ausreißer in und Multikollinearität zwischen Prädiktorvariablen | - kann Schwierigkeiten mit kategorialen Variablen mit hoher Kardinalität haben |
| - Skala-Invariante zu monoton-Transformationen von Prädiktorvariablen | |
| - Automatische Handhabung fehlender Werte in Prädiktorvariablen |
| Stärken | Schwächen |
|---|---|
| - probabilistische Vorhersagen, die eine Quantifizierung der Unsicherheit ermöglichen | - Null oder ein linearer vorheriger Mittelwert (Prädiktor, feste Effekte) Funktion |
| - Einbeziehung angemessener Vorkenntnisse. Z. B. für räumliche Daten: "Schließe Proben ähneln mehr anderen als entfernte Proben" und eine Funktion sollte über den Raum kontinuierlich / reibungslos variieren | |
| - Modellierung der Abhängigkeit, die unter anderem ein effizienteres Lernen der Funktion für feste Effekte (Prädiktor) ermöglichen kann | |
| - Gruppierte zufällige Effekte können zur Modellierung kategorischer Hochkardinalitätsvariablen verwendet werden |
Dieses Projekt ist gemäß den Bestimmungen der Apache -Lizenz 2.0 lizenziert. Weitere Informationen finden Sie unter Lizenz.