stable baselines3 contrib
v2.4.0: New algorithm (CrossQ), Gymnasium v1.0 support
用於穩定的baselines 3-實驗增強學習(RL)代碼的貢獻包。簡稱“ SB3-Contrib”。
RL算法和工具的場所被認為是實驗性的,例如最新出版物的實施。目標是保持穩定的baselines3的簡單性,文檔和样式3,但要降低成熟的實現。
在穩定的生物線和穩定的基礎線3的整個過程中,社區一直渴望以更好的記錄實用程序,環境包裝,擴展支持(例如不同的動作空間)和學習算法的形式做出貢獻。
但是,有時這些公用事業太細分了,無法考慮穩定的生物線,或者證明很難在沒有造成混亂的情況下很好地整合到現有代碼中。 SB3-Contrib的目的是通過不需要與現有代碼進行最整潔的代碼集成,而不是設置太太有利的限制:幾乎所有內容都有用!我們希望這使我們能夠在主要存儲庫中相對較小的公用事業範圍之外提供穩定的生物標準(一致樣式,文檔等),提供可靠的實現。
有關包含功能的完整列表,請參見文檔。
RL算法:
健身包裝:
文檔可在線提供:https://sb3-contrib.readthedocs.io/
要安裝穩定的baselines3與PIP貢獻,請執行:
pip install sb3-contrib
我們建議使用穩定基線的master版本3。
要安裝穩定的Baselines3 master版本:
pip install git+https://github.com/DLR-RM/stable-baselines3
要安裝穩定的baselines3貢獻master版本:
pip install git+https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
如果您想貢獻,請先閱讀貢獻。MD指南。
在出版物中引用該存儲庫(請直接引用SB3):
@article { stable-baselines3 ,
author = { Antonin Raffin and Ashley Hill and Adam Gleave and Anssi Kanervisto and Maximilian Ernestus and Noah Dormann } ,
title = { Stable-Baselines3: Reliable Reinforcement Learning Implementations } ,
journal = { Journal of Machine Learning Research } ,
year = { 2021 } ,
volume = { 22 } ,
number = { 268 } ,
pages = { 1-8 } ,
url = { http://jmlr.org/papers/v22/20-1364.html }
}