Paket Kontrib untuk Kode Pembelajaran Penguatan Eksperimental (RL) Eksperimental. "SB3-Contrib" singkatnya.
Tempat untuk algoritma dan alat RL yang dianggap eksperimental, misalnya implementasi publikasi terbaru. Tujuannya adalah menjaga kesederhanaan, dokumentasi, dan gaya stabil-baselines3 tetapi untuk implementasi yang kurang matang.
Selama rentang baseline stabil dan stabil-baselines3, masyarakat telah ingin berkontribusi dalam bentuk utilitas logging yang lebih baik, pembungkus lingkungan, dukungan yang diperluas (misalnya ruang tindakan yang berbeda) dan algoritma pembelajaran.
Namun kadang-kadang utilitas ini terlalu niche untuk dipertimbangkan untuk baseline yang stabil atau terbukti terlalu sulit untuk diintegrasikan ke dalam kode yang ada tanpa membuat kekacauan. SB3-Contrib bertujuan untuk memperbaikinya dengan tidak memerlukan integrasi kode paling rapi dengan kode yang ada dan tidak menetapkan batasan pada apa yang terlalu niche: hampir semuanya bermanfaat dari jarak jauh! Kami berharap ini memungkinkan kami untuk memberikan implementasi yang andal mengikuti standar yang biasa-baselin yang biasa (gaya konsisten, dokumentasi, dll) di luar ruang lingkup utilitas yang relatif kecil di repositori utama.
Lihat dokumentasi untuk daftar lengkap fitur yang disertakan.
Algoritma RL :
Pembungkus gym :
Dokumentasi tersedia secara online: https://sb3-contrib.readthedocs.io/
Untuk memasang baselines yang stabil3 berkontribusi dengan PIP, jalankan:
pip install sb3-contrib
Kami merekomendasikan untuk menggunakan versi master dari dasar stabil3.
Untuk menginstal Versi master Baselines3 yang stabil:
pip install git+https://github.com/DLR-RM/stable-baselines3
Untuk menginstal Versi master Contrib Contrib:
pip install git+https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
Jika Anda ingin berkontribusi, silakan baca Panduan Kontribusi.MD terlebih dahulu.
Untuk mengutip repositori ini dalam publikasi (silakan kutip SB3 secara langsung):
@article { stable-baselines3 ,
author = { Antonin Raffin and Ashley Hill and Adam Gleave and Anssi Kanervisto and Maximilian Ernestus and Noah Dormann } ,
title = { Stable-Baselines3: Reliable Reinforcement Learning Implementations } ,
journal = { Journal of Machine Learning Research } ,
year = { 2021 } ,
volume = { 22 } ,
number = { 268 } ,
pages = { 1-8 } ,
url = { http://jmlr.org/papers/v22/20-1364.html }
}