حزمة Contrib لك رمز التعلم التعزيز التجريبي (RL). "SB3-Contrib" لفترة قصيرة.
مكان لخوارزميات وأدوات RL التي تعتبر تجريبية ، على سبيل المثال تطبيقات أحدث المنشورات. الهدف هو الحفاظ على بساطة وتوثيق وأسلوب الحشائش المستقرة 3 ولكن للتطبيقات الأقل نضجًا.
على مدار فترة الخلاشات المستقرة والبشارات المستقرة 3 ، كان المجتمع حريصًا على المساهمة في شكل أدوات تسجيل أفضل ، وأغلفة البيئة ، والدعم الموسع (مثل مساحات العمل المختلفة) وخوارزميات التعلم.
ومع ذلك ، في بعض الأحيان ، كانت هذه الأدوات المساعدة مخصصة للغاية بحيث لا يمكن اعتبارها لخطوطات قاتمة مستقرة أو أثبتت أنه من الصعب للغاية دمجها جيدًا في الكود الحالي دون إنشاء فوضى. يهدف SB3-Contrib إلى إصلاح هذا من خلال عدم الحاجة إلى تكامل الرمز الأنيق مع التعليمات البرمجية الحالية وعدم تعيين حدود على ما هو مخصص للغاية: كل شيء مفيد تقريبًا! نأمل أن يسمح لنا هذا بتوفير تطبيقات موثوقة بعد المعايير المعتادة في النطاقات المستقرة (النمط المتسق ، والتوثيق ، وما إلى ذلك) بما يتجاوز النطاق الصغير نسبيًا للمرافق في المستودع الرئيسي.
انظر الوثائق للاطلاع على القائمة الكاملة للميزات المضمنة.
خوارزميات RL :
أغلفة الصالة الرياضية :
الوثائق متوفرة عبر الإنترنت: https://sb3-contrib.readthedocs.io/
لتثبيت Contrib Baselines3 مع PIP ، تنفيذ:
pip install sb3-contrib
نوصي باستخدام الإصدار master من خطوط الأساس المستقرة 3.
لتثبيت الإصدار master المستقر 3:
pip install git+https://github.com/DLR-RM/stable-baselines3
لتثبيت الإصدار الأساسي المستقر 3 Contrib master :
pip install git+https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
إذا كنت ترغب في المساهمة ، فيرجى قراءة دليل المساهمة .
للاستشهاد بهذا المستودع في المنشورات (يرجى الاستشهاد SB3 مباشرة):
@article { stable-baselines3 ,
author = { Antonin Raffin and Ashley Hill and Adam Gleave and Anssi Kanervisto and Maximilian Ernestus and Noah Dormann } ,
title = { Stable-Baselines3: Reliable Reinforcement Learning Implementations } ,
journal = { Journal of Machine Learning Research } ,
year = { 2021 } ,
volume = { 22 } ,
number = { 268 } ,
pages = { 1-8 } ,
url = { http://jmlr.org/papers/v22/20-1364.html }
}