GPBoost 다운로드 GPBoost 소스 코드 다운로드

GPBoost

C/C++

v1.5.4

다운로드

gpboost 아이콘

gpboost : 가우스 프로세스와 혼합 효과 모델과 나무 부스트를 결합

소개

GPBoost는 트리 부스트를 가우시안 프로세스 및 그룹화 된 랜덤 효과 모델 (일명 혼합 효과 모델 또는 잠재적 가우스 모델)과 결합하기위한 소프트웨어 라이브러리입니다. 또한 가우스 프로세스뿐만 아니라 트리 부스트 및 (일반화 된) 선형 혼합 효과 모델 (LMMS 및 GLMM)을 독립적으로 적용 할 수 있습니다. GPBoost 라이브러리는 주로 C ++로 작성되었으며 C 인터페이스가 있으며 Python 패키지 와 R 패키지가 모두 있습니다.

자세한 내용은 다음을 살펴보십시오.

설치 지침을 포함한 파이썬 패키지 및 R 패키지
방법론에 대한 배경에 대한 동반자 기사 Sigrist (2022, JMLR) 및 Sigrist (2023, TPAMI)
상세한 Python 예제 및 R 예제
기본 매개 변수 : GPBoost 라이브러리의 가장 중요한 매개 변수 / 설정

다음 블로그 게시물 :
- 파이썬의 그룹화 된 랜덤 효과 모델과 트리 부스트를 결합하십시오
- Python & r의 고병 범주 형 변수에 대한 GPBOOST
- Python & R의 그룹화 및 면적 공간 경제학 데이터에 대한 GPBoost
- Python & R의 공간 데이터에 대한 가우스 프로세스와 트리 부스트를 결합
- Python & R의 종단 및 패널 데이터에 대한 GPBoost
- R의 일반화 된 선형 혼합 효과 모델 (GLMMS) 및 GPBOOST를 사용한 Python
- R 및 Python에서 GPBoost를 사용하는 방법에 대한 데모
CLI (Command Line Interface) 버전을 설치하는 방법을 설명하는 CLI 설치 안내서
계산 효율성 및 대규모 데이터에 대한 의견
https://gpboost.readthedocs.io의 문서

모델링 배경

GPBoost 알고리즘은 트리 부스트를 가우시안 프로세스 (GP) 및 그룹화 된 랜덤 효과 모델과 같은 잠재 가우시안 모델과 결합합니다. 이를 통해 트리 부스트 및 잠재적 가우스 모델의 장점과 구제책 단점을 활용할 수 있습니다. 이 두 모델링 접근법의 강점과 약점 목록은 아래를 참조하십시오. GPBoost 알고리즘은 전통적인 (일반화 된) 선형 혼합 효과와 가우스 프로세스 모델과 고전적인 독립 트리 부스트 (종종 표 형 데이터에 대해 가장 높은 예측을 갖는)의 일반화로 볼 수 있습니다.

GPBoost 알고리즘의 장점

(일반화 된) 선형 혼합 효과 및 가우스 프로세스 모델과 비교하여 GPBoost 알고리즘은

비모수 적 및 비선형 방식으로 고정 효과 기능을 모델링하여보다 현실적인 모델을 초래할 수 있으며 결과적으로 예측 정확도가 높아집니다.

고전적인 독립 부스팅과 비교하여 GPBoost 알고리즘은

예측 기능에 대한보다 효율적인 학습은 무엇보다도 예측 정확도가 증가 할 수 있습니다.
고병 범주 형 변수의 효율적인 모델링
공간 예측이 우주에서 지속적으로 또는 매끄럽게 변해야 할 때 공간 또는 공간-시간 데이터 모델링

모델링 세부 사항

가우스 가능성 (GPBoost 알고리즘)의 경우 , 응답 변수 (일명 레이블) y는 잠재적으로 비선형 평균 함수 f (x) 및 랜덤 효과 ZB의 합의 합의라고 가정합니다.

 y = F(X) + Zb + xi

여기서 f (x)는 나무의 합 (= "ensemble")이고 xi는 독립 오차 항이고 x는 예측 변수 (일명 공변량 또는 특징)입니다. 랜덤 효과 ZB는 현재로 구성 될 수 있습니다.

가우스 프로세스 (무작위 계수 프로세스 포함)
그룹화 된 무작위 효과 (중첩, 교차 및 무작위 계수 효과 포함)
위의 조합

비 가우스 가능성 (lagaboost 알고리즘)의 경우 , 응답 변수 y는 분포 P (y | m)를 따르는 것으로 가정 하고이 분포의 (잠재적으로 다변량) 매개 변수 M은 비어 동의 기능 F (x) 및 랜덤 효과 ZB와 관련이 있다고 가정합니다.

 y ~ p(y|m)
m = G(F(X) + Zb)

여기서 g ()는 소위 링크 함수입니다. 현재 지원되는 가능성 P (y | m) 목록은 여기를 참조하십시오.

위에서 언급 한 모델을 추정하거나 훈련한다는 것은 랜덤 효과의 공분산 매개 변수 (일명 초 파라미터)와 예측 기능 F (x)를 학습하는 것을 의미합니다. GPBoost와 Lagaboost 알고리즘은 모두 공분산 매개 변수를 배우고 기능적 구배 및/또는 Newton 부스팅 단계를 사용하여 트리 앙상블 F (X)에 트리를 추가합니다. 자세한 내용은 Sigrist (2022, JMLR) 및 Sigrist (2023, TPAMI)를 참조하십시오.

나무 부스트 및 선형 혼합 효과 및 GP 모델의 강도 및 약점

고전적인 독립적 인 나무 부스트

강점	약점
-최첨단 예측 정확도	- 샘플의 조건부 독립성을 가정합니다
-비선형 성, 불연속성 및 복잡한 고차 상호 작용의 자동 모델링	- 공간 데이터에 대한 불연속 예측을 생성합니다
- 예측 변수 간의 이상 및 다중 공선성에 대한 강력한	- 높은 수정 성 범주 형 변수에는 어려움이있을 수 있습니다
- 예측 변수의 스케일 불변성에서 모노톤 변환
- 예측 변수에서 결 측값의 자동 처리

선형 혼합 효과 및 가우스 공정 (GPS) 모델 (일명 잠재 가우스 모델)

강점	약점
- 불확실성 정량화를 허용하는 확률 적 예측	- 0 또는 선형 사전 평균 (예측 변수, 고정 효과) 함수
- 합리적인 사전 지식의 통합. 예를 들어 공간 데이터의 경우 : "닫기 샘플은 먼 샘플보다 서로 더 유사합니다."
- 무엇보다도 고정 효과 (예측 자) 기능에 대한보다 효율적인 학습을 허용 할 수있는 종속성 모델링
- 그룹화 된 랜덤 효과는 고전성 범주 형 변수를 모델링하는 데 사용할 수 있습니다.

소식

Github 릴리스 페이지를 참조하십시오
2022 년 10 월 : 두 동반자 기사가 JMLR (Journal of Machine Learning Research) 및 IEEE 트랜잭션에 패턴 분석 및 기계 인텔리전스 (TPAMI)에 출판되었음을 발표하게되어 기쁩니다.
04/06/2020 : GPBoost의 첫 출시

열린 문제 - 기여

향상된 레이블로 Github에서 열린 문제를 참조하십시오.

소프트웨어 문제

파이썬 테스트 추가 (해당 R 테스트 참조)
CI 환경 설정
gpboost 모델을 ONNX 모델 형식으로 변환합니다

방법 론적 문제

예를 들어 Coregionalization을 사용하여 다변량 모델을 지원합니다
자동차 및 SAR 모델과 같은 공간 데이터에 대한 면적 모델 지원
멀티 클래스 분류, 즉 다중 클래스 가능성을 지원합니다
가우시안 프로세스 모델에 대한 계산 (메모리 및 시간)이 잘 확정되도록 더 많은 접근 방식을 구현하고 비가 우스 데이터에 대한 둘 이상의 그룹화 변수를 갖춘 혼합 효과 모델
샘플 가중치를 지원합니다
가우시안 프로세스의 유클리드 거리 (예 : 큰 원 거리는) 이외의 다른 거리를 지원합니다.

계산 문제

가우스 프로세스에 대한 GPU 지원을 추가하십시오
Cholmod 지원을 추가하십시오

참조

Sigrist Fabio. "가우스 프로세스 강화". 기계 학습 연구 저널 (2022).
Sigrist Fabio. "잠재적 가우시안 모델 향상". 패턴 분석 및 기계 지능에 대한 IEEE 거래 (2023).
Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong MA, Qiwei Ye, Tie-Yan Liu. "LightGBM : 매우 효율적인 그라디언트 강화 의사 결정 트리". 신경 정보 처리 시스템의 발전 30 (2017).
Williams, Christopher KI 및 Carl Edward Rasmussen. 기계 학습을위한 가우스 프로세스 . MIT Press, 2006.
Pinheiro, Jose 및 Douglas Bates. 혼합 효과는 S 및 S-Plus의 모델을 혼합합니다 . Springer Science & Business Media, 2006.