Скачать GPBoost - Скачать исходный код GPBoost

GPBoost

С/С++

v1.5.4

Скачать

Иконка GPBoost

GPBoost: комбинирование моделей по производству деревьев с гауссовыми процессами и смешанными эффектами

Введение

GPBoost-это библиотека программного обеспечения для сочетания деревьев с гауссовым процессом и сгруппированными моделями случайных эффектов (так aka Mixed Effect Models или скрытые гауссовые модели). Это также позволяет независимо применять деревьев, а также гауссовый процесс и (обобщенные) линейные модели смешанных эффектов (LMMS и GLMM). Библиотека GPBoost в основном написана в C ++, имеет интерфейс C, и существует как пакет Python , так и пакет R.

Для получения дополнительной информации вы можете взглянуть на:

Пакет Python и пакет R, включая инструкции по установке
Статьи сопутствующей статьи (2022, JMLR) и сигрист (2023, TPAMI) для предыстория методологии
Подробные примеры Python и R примеры
Основные параметры : наиболее важные параметры / настройки для библиотеки GPBoost

Следующие сообщения в блоге :
- Объединить дерево
- GPBoost для категориальных переменных с высокой кардинальной стороной в Python & R
- GPBoost для сгруппированных и ареальных пространственных эконометрических данных в Python & R
- Объединить деревья с гауссовыми процессами для пространственных данных в Python & R
- GPBoost для продольных и панельных данных в Python & R
- Обобщенные линейные модели смешанных эффектов (GLMMS) в R и Python с GPBOOST
- Демо о том, как GPBoost можно использовать в R и Python
Руководство по установке CLI, объясняющее, как установить версию интерфейса командной строки (CLI)
Комментарии к вычислительной эффективности и большим данным
Документация на https://gpboost.readthedocs.io

Моделирование фона

Алгоритм GPBoost сочетает в себе деревья с скрытыми гауссовыми моделями, такими как гауссовый процесс (GP) и сгруппированные модели случайных эффектов. Это позволяет использовать преимущества и недостатки исправления как моделей, занимающихся деревьями, так и скрытыми гауссовыми моделями; См. Ниже список силы и слабостей этих двух подходов к моделированию. Алгоритм GPBoost можно рассматривать как обобщение как традиционных (обобщенных) линейных смешанных эффектов, так и гауссовских моделей процессов и классического независимого повышения деревьев (которые часто имеют самый высокий прогноз для табличных данных).

Преимущества алгоритма GPBoost

По сравнению с (обобщенными) линейными смешанными эффектами и гауссовыми моделями процесса, алгоритм GPBoost позволяет

Моделирование функции фиксированных эффектов непараметрическим и нелинейным образом, что может привести к более реалистичным моделям, которые, следовательно, имеют более высокую точность прогнозирования

По сравнению с классическим независимым повышением, алгоритм GPBoost позволяет

более эффективное изучение функций предикторов, которые, среди прочего, могут привести к повышению точности прогнозирования
Эффективное моделирование категориальных переменных с высоким уровнем кардинала
моделирование пространственных или пространственных данных, когда, например, пространственные прогнозы должны непрерывно или плавно варьироваться или плавно, по пространству

Моделирование деталей

Для гауссовых вероятностей (алгоритм GPBoost) предполагается, что переменная отклика (aka label) y-это сумма потенциально нелинейной средней функции f (x) и случайных эффектов zb: zb:

 y = F(X) + Zb + xi

Если f (x) является суммой (= "ансамблем") деревьев, XI является независимым термином ошибки, а x - переменные предиктора (он же ковариаты или функции). Случайные эффекты ZB в настоящее время может состоять из:

Гауссовые процессы (включая процессы случайных коэффициентов)
Сгруппированные случайные эффекты (включая вложенные, скрещенные и случайные эффекты коэффициента)
Комбинации вышеизложенного

Для негауссовских правдоподобия (алгоритм Lagaboost) предполагается, что переменная отклика Y следует за распределением p (y | m) и что (потенциально многомерный) параметр M этого распределения связан с нелинейной функцией F (x) и случайными эффектами zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: zb: случайные эффекты: zb: zb: zb: случайные эффекты: zb: zb: случайные эффекты: zb: случайные эффекты: zb: случайные эффекты: zb: случайные эффекты: zb: случайные эффекты и случайные эффекты zb:

 y ~ p(y|m)
m = G(F(X) + Zb)

где g ()-так называемая функция ссылки. См. Здесь для списка поддерживаемых в настоящее время вероятности p (y | m).

Оценка или обучение вышеупомянутых моделей означает изучение как параметров ковариации (он же гиперпараметры) случайных эффектов, так и функции предиктора F (x). И алгоритмы GPBOOST, и алгоритмы Lagaboost итеративно изучают параметры ковариации и добавляют дерево в ансамбль деревьев F (x), используя функциональный градиент и/или шаг повышения Newton. См. Сигрист (2022, JMLR) и сигрист (2023, TPAMI) для получения более подробной информации.

Сила и слабые стороны повышения деревьев и линейных смешанных эффектов и моделей врачей общей практики

Классическая независимая деревья

Сильные стороны	Слабые стороны
-Современная точность прогнозирования	- предполагает условную независимость образцов
-Автоматическое моделирование нелинейности, разрывов и сложных взаимодействий высокого порядка	- производит прерывистые прогнозы для, например, пространственные данные
- устойчивая к выбросам и многоколлинеарности среди предикторов переменных	- Может испытывать трудности с категориальными переменными с высокой кардинальностью
- масштаб-инвариант в монотонные преобразования переменных предикторов
- Автоматическая обработка пропущенных значений в переменных предикторов

Линейные смешанные эффекты и модели гауссового процесса (GPS) (AKA Litent Gaussian Models)

Сильные стороны	Слабые стороны
- Вероятностные прогнозы, которые допускают количественное определение неопределенности	- Ноль или линейная ранее средняя (предиктор, фиксированные эффекты) функция
- Включение разумных предварительных знаний. Например, для пространственных данных: «Закрытые образцы более похожи друг на друга, чем отдаленные образцы», и функция должна непрерывно / плавно варьироваться в пространстве
- Моделирование зависимости, которая, помимо прочего, может обеспечить более эффективное изучение функции фиксированных эффектов (предиктор)
- Сгруппированные случайные эффекты могут быть использованы для моделирования категориальных переменных с высокой кардиналом

Новости

Смотрите страницу GitHub Relesess
Октябрь 2022 года. Рад объявить, что две сопутствующие статьи опубликованы в журнале «Исследования машинного обучения» (JMLR) и IEEE Transactions по анализу и интеллекту машин (TPAMI)
04/06/2020: первый выпуск GPBoost

Открытые проблемы - внести свой вклад

Посмотрите на открытые проблемы на GitHub с этикеткой улучшения

Проблемы с программным обеспечением

Добавить тесты Python (см. Соответствующие R -тесты)
Настройка среды CI
Поддержка преобразования моделей GPBoost в формат модели ONNX

Методологические проблемы

Поддержка многомерных моделей, например, с использованием Coregionalization
Поддержка моделей AREAL для пространственных данных, таких как модели CAR и SAR
Поддержка Multiclass Classification, т.е. многономиальная вероятность
Реализуйте больше подходов, таких чтобы вычисления хорошо масштабируются (память и время) для моделей процессов Гаусса и моделей смешанных эффектов с более чем одной переменной группировки для негауссовых данных
Поддержка веса образца
Поддержка других расстояний, помимо евклидово расстояния (например, расстояние большого круга) для гауссовых процессов

Вычислительные проблемы

Добавить поддержку GPU для гауссовых процессов
Добавить поддержку Чолмода

Ссылки

Сигрист Фабио. «Гауссовое усиление процесса». Журнал исследований машинного обучения (2022).
Сигрист Фабио. «Странная гауссовая модель повышения». IEEE транзакции по анализу шаблонов и машинного интеллекта (2023).
Гулин Ке, Ци Менг, Томас Финли, Тайфенг Ван, Вей Чен, Вейдонг М.А., Цивей Йе, Тил-Янь Лю. «Lightgbm: высокоэффективное дерево решений повышения градиента». Достижения в системах обработки нейронной информации 30 (2017).
Уильямс, Кристофер Ки и Карл Эдвард Расмуссен. Гауссовые процессы для машинного обучения . MIT Press, 2006.
Пинхайро, Хосе и Дуглас Бейтс. Модели смешанных эффектов в S и S-Plus . Springer Science & Business Media, 2006.