GPBoost -Download - GPBoost -Quellcode -Download

GPBoost

C/C++

v1.5.4

Herunterladen

GPBOOST IKON

GPBOOST: Kombination von Baumsteigerungen mit Gaußschen Prozess- und gemischten Effektmodellen

Inhaltsverzeichnis

Einführung
Modellierungshintergrund
Nachricht
Offene Probleme - Beitrag leisten
Referenzen
Lizenz

Einführung

GPBOOST ist eine Softwarebibliothek zur Kombination von Baumsteigerungen mit Gaußschen Prozes und gruppierten Modellen für zufällige Effekte (auch bekannt als Modelle für gemischte Effekte oder latente Gaußsche Modelle). Es ermöglicht auch die unabhängig Anwendung von Baumsteigerungen sowie Gaußschen Prozessen und (verallgemeinerten) linearen gemischten Effektmodellen (LMMs und GLMM). Die GPBOOST -Bibliothek ist überwiegend in C ++ geschrieben, eine C -Schnittstelle und es gibt sowohl ein Python -Paket als auch ein R -Paket .

Für weitere Informationen möchten Sie sich vielleicht ansehen:

Das Python -Paket und das R -Paket einschließlich Installationsanweisungen
Die Begleitartikel Sigrist (2022, JMLR) und Sigrist (2023, TPAMI) für den Hintergrund zur Methodik
Detaillierte Python -Beispiele und R -Beispiele
Hauptparameter : Die wichtigsten Parameter / Einstellungen für die GPBOOST -Bibliothek

Die folgenden Blog -Beiträge :
- Kombinieren Sie Baumanleihen mit gruppierten Zufallseffektmodellen in Python
- Gpboost für kategorische Variablen mit hoher Kardinalität in Python & r
- GPBOOST für gruppierte und räumliche ökonometrische Daten in Python & r
- Kombinieren Sie Baumanleihen mit Gaußschen Prozessen für räumliche Daten in Python & r
- GPBOOST für Längs- und Paneldaten in Python & r
- Verallgemeinerte lineare gemischte Effektmodelle (GLMMS) in R und Python mit gpboost
- Demo darüber, wie GPBoost in R und Python verwendet werden kann
Die CLI -Installationshandbuch erläutert, wie die Befehlszeilenschnittstellenversion (CLI) installiert werden
Kommentare zu Recheneffizienz und großen Daten
Die Dokumentation unter https://gpboost.readthedocs.io

Modellierungshintergrund

Der GPBOOST-Algorithmus kombiniert Baumanleihen mit latenten Gaußschen Modellen wie Gaußschen Prozes (GP) und gruppierten Modellen mit zufälligen Effekten. Dies ermöglicht es, Vorteile zu nutzen und Nachteile sowohl von Baumanleihen als auch von latenten Gaußschen Modellen zu beheben. Im Folgenden finden Sie eine Liste von Stärke und Schwächen dieser beiden Modellierungsansätze. Der GPBOOST-Algorithmus kann sowohl als Generalisierung herkömmlicher (generalisierter) linearer gemischter Effekte als auch als Gaußsche Prozessmodelle und klassischer unabhängiger Baumoostierung angesehen werden (was häufig die höchste Vorhersage für tabellarische Daten aufweist).

Vorteile des GPBoost -Algorithmus

Im Vergleich zu (verallgemeinerten) linearen gemischten Effekten und Gaußschen Prozessmodellen erlaubt der GPBOOST -Algorithmus

Modellierung der Funktion der festen Effekte in nicht parametrischer und nichtlinearer Weise, was zu realistischeren Modellen führen kann, die folglich eine höhere Vorhersagegenauigkeit aufweisen

Im Vergleich zum klassischen unabhängigen Boosting erlaubt der GPBoost -Algorithmus

Effizienteres Lernen von Prädiktorfunktionen, die unter anderem zu einer erhöhten Vorhersagegenauigkeit führen können
Effiziente Modellierung von kategorialen Variablen mit hoher Kardinalität
Modellierung räumlicher oder räumlich-zeitlicher Daten, wenn z. B. räumliche Vorhersagen kontinuierlich oder reibungslos über den Raum variieren sollten

Modellierungsdetails

Bei Gaußschen Wahrscheinlichkeiten (GPBOOST-Algorithmus) wird angenommen, dass die Antwortvariable (auch bekannt als Label) y die Summe einer potenziell nichtlinearen mittleren Funktion F (x) und zufällige Effekte ZB ist:

 y = F(X) + Zb + xi

Wenn f (x) eine Summe (= "Ensemble") von Bäumen ist, ist XI ein unabhängiger Fehlerbegriff und x Prädiktorvariablen (auch bekannt als Kovariaten oder Merkmale). Die zufälligen Effekte ZB können derzeit bestehen:

Gaußsche Prozesse (einschließlich zufälliger Koeffizientenprozesse)
Gruppierte zufällige Effekte (einschließlich verschachtelter, gekreuzter und zufälliger Koeffizienteneffekte)
Kombinationen der oben genannten

Für nicht-gaußische Wahrscheinlichkeiten (Lagaboost-Algorithmus) wird angenommen, dass die Antwortvariable y einer Verteilung P (y | m) folgt und dass ein (potenziell multivariater) Parameter m dieser Verteilung mit einer nichtlinearen Funktion F (x) und zufälliger Effekte ZB zusammenhängt:

 y ~ p(y|m)
m = G(F(X) + Zb)

wo g () eine sogenannte Verbindungsfunktion ist. Hier finden Sie eine Liste der derzeit unterstützten Wahrscheinlichkeiten P (y | m).

Das Schätzung oder Training der oben genannten Modelle bedeutet, sowohl die Kovarianzparameter (auch als Hyperparameter) der Zufallseffekte als auch die Prädiktorfunktion F (x) zu lernen. Sowohl der GPBOOST- als auch die Lagaboost -Algorithmen lernen iterativ die Kovarianzparameter und fügen dem Ensemble der Bäume F (x) mit einem Funktionsgradienten und/oder einem Newton -Boosting -Schritt hinzu. Weitere Informationen finden Sie unter Sigrist (2022, JMLR) und Sigrist (2023, TPAMI).

Stärke und Schwächen von Baumsteigerungen und linearen gemischten Effekten und GP-Modellen

Klassische unabhängige Baumanleihen

Stärken	Schwächen
-hochmoderne Vorhersagegenauigkeit	- nimmt eine bedingte Unabhängigkeit von Proben an
-Automatische Modellierung von Nichtlinearitäten, Diskontinuitäten und komplexen Wechselwirkungen mit hoher Ordnung	- erzeugt diskontinuierliche Vorhersagen für, z. B. räumliche Daten
- robust für Ausreißer in und Multikollinearität zwischen Prädiktorvariablen	- kann Schwierigkeiten mit kategorialen Variablen mit hoher Kardinalität haben
- Skala-Invariante zu monoton-Transformationen von Prädiktorvariablen
- Automatische Handhabung fehlender Werte in Prädiktorvariablen

Lineare gemischte Effekte und GPS -Modelle (Gaussian Process) (auch bekannt als latente Gaußsche Modelle)

Stärken	Schwächen
- probabilistische Vorhersagen, die eine Quantifizierung der Unsicherheit ermöglichen	- Null oder ein linearer vorheriger Mittelwert (Prädiktor, feste Effekte) Funktion
- Einbeziehung angemessener Vorkenntnisse. Z. B. für räumliche Daten: "Schließe Proben ähneln mehr anderen als entfernte Proben" und eine Funktion sollte über den Raum kontinuierlich / reibungslos variieren
- Modellierung der Abhängigkeit, die unter anderem ein effizienteres Lernen der Funktion für feste Effekte (Prädiktor) ermöglichen kann
- Gruppierte zufällige Effekte können zur Modellierung kategorischer Hochkardinalitätsvariablen verwendet werden

Nachricht

Siehe die Seite GitHub Releases
Oktober 2022: Freut mich bekannt zu geben, dass die beiden Begleitartikel im Journal of Machine Learning Research (JMLR) und IEEE -Transaktionen zur Musteranalyse und der Machine Intelligence (TPAMI) veröffentlicht werden.
04/06/2020: Erste Veröffentlichung von GPBoost

Offene Probleme - Beitrag leisten

Sehen Sie sich die offenen Probleme in GitHub mit einem Verbesserungsetikett an

Softwareprobleme

Fügen Sie Python -Tests hinzu (siehe entsprechende R -Tests)
Einrichten einer CI -Umgebung
Unterstützen Sie die Konvertierung von GPBOOST -Modellen in das ONNX -Modellformat

Methodische Probleme

Unterstützen Sie multivariate Modelle, z. B. mithilfe der Koregionalisierung
Unterstützen Sie Flächenmodelle für räumliche Daten wie CAR- und SAR -Modelle
Unterstützen Sie die Klassifizierung von Multiclass -Klassifizierung, dh multinomiale Wahrscheinlichkeiten
Implementieren Sie mehr Ansätze so, dass die Berechnungen Well (Speicher und Zeit) für Gaußsche Prozessmodelle und Mischeffektmodelle mit mehr als einer Gruppierungsvariablen für nicht-gaußische Daten skalieren
Probengewichte unterstützen
Unterstützen Sie andere Entfernungen neben der euklidischen Entfernung (z. B. Großkreisabstand) für Gaußsche Prozesse

Rechenprobleme

Fügen Sie GPU -Unterstützung für Gaußsche Prozesse hinzu
Fügen Sie Cholmod -Unterstützung hinzu

Referenzen

Sigrist Fabio. "Gaußscher Prozess Boosting". Journal of Machine Learning Research (2022).
Sigrist Fabio. "Latent Gaußsche Modell Boosting". IEEE -Transaktionen zur Musteranalyse und Maschinenintelligenz (2023).
Guolin KE, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-Yan Liu. "LightGBM: Ein hocheffizienter Gradienten -Boosting -Entscheidungsbaum". Fortschritte bei neuronalen Informationsverarbeitungssystemen 30 (2017).
Williams, Christopher Ki und Carl Edward Rasmussen. Gaußsche Prozesse für maschinelles Lernen . MIT Press, 2006.
Pinheiro, Jose und Douglas Bates. Mischeffektmodelle in S und S-plus . Springer Science & Business Media, 2006.