안정적인 베이 스틸 라인을위한 패키지 3- 실험적인 강화 학습 (RL) 코드. 짧은 "SB3-Contrib".
실험적인 것으로 간주되는 RL 알고리즘 및 도구, 예를 들어 최신 간행물의 구현을위한 장소. 목표는 안정적인 기본화의 단순성, 문서 및 스타일을 유지하지만 덜 성숙되지 않은 구현을 유지하는 것입니다.
안정적인 기타 및 안정적인 기본화 3 개에 걸쳐 커뮤니티는 더 나은 로깅 유틸리티, 환경 포장지, 확장 된 지원 (예 : 다양한 액션 공간) 및 학습 알고리즘의 형태로 기여하기를 간절히 원했습니다.
그러나 때때로 이러한 유틸리티는 안정된 기타 라인에 대해 고려하기에는 너무 틈새 시장이거나 혼란을 일으키지 않고 기존 코드에 잘 통합하기에는 너무 어려운 것으로 판명되었습니다. SB3-Contrib은 기존 코드와 가장 깔끔한 코드 통합을 요구하지 않고 너무 틈새 시장에 대한 제한을 설정하지 않음으로써이를 해결하는 것을 목표로합니다. 이를 통해 주요 저장소에서 비교적 작은 유틸리티 범위를 넘어서 안정적인 표준 표준 (일관된 스타일, 문서 등)에 따라 안정적인 구현을 제공 할 수 있기를 바랍니다.
포함 된 기능의 전체 목록은 문서를 참조하십시오.
RL 알고리즘 :
체육관 포장지 :
문서는 온라인으로 제공됩니다 : https://sb3-contrib.readthedocs.io/
PIP에 안정적인 BaseLines3를 설치하려면 Execute :
pip install sb3-contrib
master 버전의 안정적인 기준선을 사용하는 것이 좋습니다.
안정적인 BaseLines3 master 버전을 설치하려면 :
pip install git+https://github.com/DLR-RM/stable-baselines3
안정적인 BaseLines3 설치하려면 Contrib master 버전 :
pip install git+https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
기여하려면 Contration.Md Guide를 먼저 읽으십시오.
이 저장소를 출판물에서 인용하려면 (SB3를 직접 인용하십시오) :
@article { stable-baselines3 ,
author = { Antonin Raffin and Ashley Hill and Adam Gleave and Anssi Kanervisto and Maximilian Ernestus and Noah Dormann } ,
title = { Stable-Baselines3: Reliable Reinforcement Learning Implementations } ,
journal = { Journal of Machine Learning Research } ,
year = { 2021 } ,
volume = { 22 } ,
number = { 268 } ,
pages = { 1-8 } ,
url = { http://jmlr.org/papers/v22/20-1364.html }
}