stable baselines3 contrib
v2.4.0: New algorithm (CrossQ), Gymnasium v1.0 support
用于稳定的baselines 3-实验增强学习(RL)代码的贡献包。简称“ SB3-Contrib”。
RL算法和工具的场所被认为是实验性的,例如最新出版物的实施。目标是保持稳定的baselines3的简单性,文档和样式3,但要降低成熟的实现。
在稳定的生物线和稳定的基础线3的整个过程中,社区一直渴望以更好的记录实用程序,环境包装,扩展支持(例如不同的动作空间)和学习算法的形式做出贡献。
但是,有时这些公用事业太细分了,无法考虑稳定的生物线,或者证明很难在没有造成混乱的情况下很好地整合到现有代码中。 SB3-Contrib的目的是通过不需要与现有代码进行最整洁的代码集成,而不是设置太太有利的限制:几乎所有内容都有用!我们希望这使我们能够在主要存储库中相对较小的公用事业范围之外提供稳定的生物标准(一致样式,文档等),提供可靠的实现。
有关包含功能的完整列表,请参见文档。
RL算法:
健身包装:
文档可在线提供:https://sb3-contrib.readthedocs.io/
要安装稳定的baselines3与PIP贡献,请执行:
pip install sb3-contrib
我们建议使用稳定基线的master版本3。
要安装稳定的Baselines3 master版本:
pip install git+https://github.com/DLR-RM/stable-baselines3
要安装稳定的baselines3贡献master版本:
pip install git+https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
如果您想贡献,请先阅读贡献。MD指南。
在出版物中引用该存储库(请直接引用SB3):
@article { stable-baselines3 ,
author = { Antonin Raffin and Ashley Hill and Adam Gleave and Anssi Kanervisto and Maximilian Ernestus and Noah Dormann } ,
title = { Stable-Baselines3: Reliable Reinforcement Learning Implementations } ,
journal = { Journal of Machine Learning Research } ,
year = { 2021 } ,
volume = { 22 } ,
number = { 268 } ,
pages = { 1-8 } ,
url = { http://jmlr.org/papers/v22/20-1364.html }
}