
GPBoost-это библиотека программного обеспечения для сочетания деревьев с гауссовым процессом и сгруппированными моделями случайных эффектов (так aka Mixed Effect Models или скрытые гауссовые модели). Это также позволяет независимо применять деревьев, а также гауссовый процесс и (обобщенные) линейные модели смешанных эффектов (LMMS и GLMM). Библиотека GPBoost в основном написана в C ++, имеет интерфейс C, и существует как пакет Python , так и пакет R.
Для получения дополнительной информации вы можете взглянуть на:
Следующие сообщения в блоге :
Руководство по установке CLI, объясняющее, как установить версию интерфейса командной строки (CLI)
Комментарии к вычислительной эффективности и большим данным
Документация на https://gpboost.readthedocs.io
Алгоритм GPBoost сочетает в себе деревья с скрытыми гауссовыми моделями, такими как гауссовый процесс (GP) и сгруппированные модели случайных эффектов. Это позволяет использовать преимущества и недостатки исправления как моделей, занимающихся деревьями, так и скрытыми гауссовыми моделями; См. Ниже список силы и слабостей этих двух подходов к моделированию. Алгоритм GPBoost можно рассматривать как обобщение как традиционных (обобщенных) линейных смешанных эффектов, так и гауссовских моделей процессов и классического независимого повышения деревьев (которые часто имеют самый высокий прогноз для табличных данных).
По сравнению с (обобщенными) линейными смешанными эффектами и гауссовыми моделями процесса, алгоритм GPBoost позволяет
По сравнению с классическим независимым повышением, алгоритм GPBoost позволяет
Для гауссовых вероятностей (алгоритм GPBoost) предполагается, что переменная отклика (aka label) y-это сумма потенциально нелинейной средней функции f (x) и случайных эффектов zb: zb:
y = F(X) + Zb + xi
Если f (x) является суммой (= "ансамблем") деревьев, XI является независимым термином ошибки, а x - переменные предиктора (он же ковариаты или функции). Случайные эффекты ZB в настоящее время может состоять из:
Для негауссовских правдоподобия (алгоритм Lagaboost) предполагается, что переменная отклика Y следует за распределением p (y | m) и что (потенциально многомерный) параметр M этого распределения связан с нелинейной функцией F (x) и случайными эффектами zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: случайные эффекты: zb: zb: zb: случайные эффекты: zb: zb: случайные эффекты: zb: случайные эффекты: zb: случайные эффекты: zb: случайные эффекты: zb: случайные эффекты и случайные эффекты zb:
y ~ p(y|m)
m = G(F(X) + Zb)
где g ()-так называемая функция ссылки. См. Здесь для списка поддерживаемых в настоящее время вероятности p (y | m).
Оценка или обучение вышеупомянутых моделей означает изучение как параметров ковариации (он же гиперпараметры) случайных эффектов, так и функции предиктора F (x). И алгоритмы GPBOOST, и алгоритмы Lagaboost итеративно изучают параметры ковариации и добавляют дерево в ансамбль деревьев F (x), используя функциональный градиент и/или шаг повышения Newton. См. Сигрист (2022, JMLR) и сигрист (2023, TPAMI) для получения более подробной информации.
| Сильные стороны | Слабые стороны |
|---|---|
| -Современная точность прогнозирования | - предполагает условную независимость образцов |
| -Автоматическое моделирование нелинейности, разрывов и сложных взаимодействий высокого порядка | - производит прерывистые прогнозы для, например, пространственные данные |
| - устойчивая к выбросам и многоколлинеарности среди предикторов переменных | - Может испытывать трудности с категориальными переменными с высокой кардинальностью |
| - масштаб-инвариант в монотонные преобразования переменных предикторов | |
| - Автоматическая обработка пропущенных значений в переменных предикторов |
| Сильные стороны | Слабые стороны |
|---|---|
| - Вероятностные прогнозы, которые допускают количественное определение неопределенности | - Ноль или линейная ранее средняя (предиктор, фиксированные эффекты) функция |
| - Включение разумных предварительных знаний. Например, для пространственных данных: «Закрытые образцы более похожи друг на друга, чем отдаленные образцы», и функция должна непрерывно / плавно варьироваться в пространстве | |
| - Моделирование зависимости, которая, помимо прочего, может обеспечить более эффективное изучение функции фиксированных эффектов (предиктор) | |
| - Сгруппированные случайные эффекты могут быть использованы для моделирования категориальных переменных с высокой кардиналом |
Этот проект лицензирован в соответствии с условиями лицензии Apache 2.0. Смотрите лицензию для получения дополнительной информации.