تنزيل omnisafe - تنزيل رمز المصدر omnisafe

omnisafe

بايثون

v0.5.0

تنزيل

الوثائق | خوارزميات تنفذ | التثبيت | البدء | رخصة

Omnisafe هو إطار عمل للبنية التحتية مصمم لتسريع أبحاث التعلم التعزيز الآمن (RL). يوفر معيارًا شاملاً وموثوقًا لخوارزميات RL الآمنة ، وأيضًا مجموعة أدوات معيارية خارج الصندوق للباحثين. تعتزم Saferl تطوير الخوارزميات التي تقلل من خطر الضرر غير المقصود أو السلوك غير الآمن.

يقف Omnisafe كإطار التعلم الموحد الافتتاحي في عالم التعلم الآمن ، بهدف تعزيز نمو مجتمع التعلم Saferl. الميزات الرئيسية لـ Omnisafe:

إطار وحدات للغاية. يقدم Omnisafe إطارًا وحدات للغاية ، يتضمن مجموعة واسعة من عشرات الخوارزميات المصممة لتحقيق التعلم الآمن عبر المجالات المتنوعة. هذا الإطار متعدد الاستخدامات بسبب تجريده لأنواع الخوارزمية المختلفة وواجهة واجهة برمجة التطبيقات المصممة جيدًا ، وذلك باستخدام مكونات تصميم المحول والغلاف لسد الثغرات وتمكين التفاعلات السلس بين المكونات المختلفة. يسمح هذا التصميم بتمديد وتخصيص سهل ، مما يجعله أداة قوية للمطورين الذين يعملون مع أنواع مختلفة من الخوارزميات.
تسارع حوسبة موازية عالية الأداء. من خلال تسخير قدرات torch.distributed ، فإن Omnisafe يسارع عملية التعلم للخوارزميات مع التوازي العملية. وهذا يتيح Omnisafe ليس فقط لدعم التوازي غير المتزامن على مستوى البيئة ولكنه يشتمل أيضًا على التعلم غير المتزامن. تعزز هذه المنهجية استقرار التدريب وتسريع عملية التدريب من خلال نشر آلية استكشاف موازية. إن تكامل الوكيل غير المتزامن في Omnisafe يؤكد التزامه بتوفير منصة متعددة الاستخدامات وقوية للتقدم في الأبحاث السافية.
مجموعات أدوات خارج الصندوق. يقدم Omnisafe مجموعات أدوات قابلة للتخصيص للمهام مثل التدريب والمعايير والتحليل والعرض. تجعل البرامج التعليمية وواجهة برمجة التطبيقات السهلة للاستخدام سهلة للمبتدئين والمستخدمين العاديين ، في حين أن الباحثين المتقدمين يمكنهم تعزيز كفاءتهم دون رمز معقد.

إذا وجدت Omnisafe مفيدًا أو استخدم Omnisafe في بحثك ، فيرجى الاستشهاد به في منشوراتك.

 @article { JMLR:v25:23-0681 ,
  author  = { Jiaming Ji and Jiayi Zhou and Borong Zhang and Juntao Dai and Xuehai Pan and Ruiyang Sun and Weidong Huang and Yiran Geng and Mickel Liu and Yaodong Yang } ,
  title   = { OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research } ,
  journal = { Journal of Machine Learning Research } ,
  year    = { 2024 } ,
  volume  = { 25 } ,
  number  = { 285 } ,
  pages   = { 1--6 } ,
  url     = { http://jmlr.org/papers/v25/23-0681.html }
}

جدول المحتويات

بداية سريعة
- تثبيت
  - المتطلبات الأساسية
  - تثبيت من المصدر
  - تثبيت من PYPI
خوارزميات تنفذ
- أمثلة
  - سجل الخوارزميات
  - البيئات المدعومة
  - تخصيص بيئتك
  - حاول مع CLI
ابدء
- تلميحات مهمة
- QuickStart: كولاب على السحابة
Changelog
نقلا عن omnisafe
المنشورات باستخدام Omnisafe
فريق Omnisafe
رخصة

بداية سريعة

تثبيت

المتطلبات الأساسية

يتطلب Omnisafe Python 3.8+ و Pytorch 1.10+.

نحن ندعم واختبار Python 3.8 ، 3.9 ، 3.10 على Linux. وفي الوقت نفسه ، ندعم أيضًا إصدارات M1 و M2 من MacOS. سوف نقبل PRS المتعلقة بـ Windows ، لكننا لا ندعمها رسميًا.

تثبيت من المصدر

 # Clone the repo
git clone https://github.com/PKU-Alignment/omnisafe.git
cd omnisafe

# Create a conda environment
conda env create --file conda-recipe.yaml
conda activate omnisafe

# Install omnisafe
pip install -e .

تثبيت من PYPI

يتم استضافة Omnisafe في /.

pip install omnisafe

خوارزميات تنفذ

أحدث أوراق SAFERL

[AAAI 2023] تحسين السياسة القريبة من التعلم الآمن (APPO)
[Neurips 2022] نهج الإسقاط التحديث المقيد لتحسين السياسة الآمنة (CUP)
[Neupips 2022] آثار زيادة حالة السلامة على الاستكشاف الآمن (ينضج)
[Neupips 2022] التعلم الآمن المعزز في النموذج من خلال خوارزمية تحسين السياسة القريبة المقيدة
[ICML 2022] SAUTIE RL: تعلم التعزيز الآمن تقريبًا باستخدام تكبير الدولة (SAUTERL)
[IJCAI 2022] معاقبة السياسة القريبة من التعرف على التعزيز الآمن
[AAAI 2022] عقوبة محافظة وتكيفية لتعلم التعزيز الآمن القائم على النماذج (CAP)

قائمة الخوارزميات

على السياسة Saferl

خارج السياسة Saferl

[preprint 2019] النسخة Lagrangian من DDPG (DDPGLAG)
[preprint 2019] النسخة Lagrangian من TD3 (TD3LAG)
[preprint 2019] النسخة Lagrangian من SAC (SACLAG)
[ICML 2020] سلامة استجابة في التعلم التعزيز من قبل أساليب PID Lagrangian (DDPGPID)
[ICML 2020] سلامة استجابة في التعلم التعزيز من قبل أساليب Pid Lagrangian (TD3PID)
[ICML 2020] سلامة استجابة في التعلم التعزيز من قبل أساليب Pid Lagrangian (Sacpid)

Saferl القائم على النموذج

[Neurips 2021] تعلم التعزيز الآمن من خلال تخيل المستقبل القريب (SMBPO)
[Corl 2021 (عن طريق الفم)] التعلم خارج السياسة مع التخطيط عبر الإنترنت (Safeloop)
[AAAI 2022] عقوبة محافظة وتكيفية لتعلم التعزيز الآمن القائم على النماذج (CAP)
[Neupips 2022] التعلم الآمن المعزز في النموذج من خلال خوارزمية تحسين السياسة القريبة المقيدة
[ICLR 2022] تحسين السياسة المقيدة عبر نماذج Bayesian World (LA-MBDA)
[ورشة عمل ICML 2022] تقيد التعلم التعزيز القائم على النموذج مع طريقة إدارية قوية (RCE)
[Neupips 2018] طريقة متشابكة المقياس للتعلم الآمن (CCE)

SAFERL في وضع عدم الاتصال

إصدار Lagrange من BCQ (BCQ-LAG)
النسخة المقيدة من CRR (C-CRR)
[AAAI 2022] القيود معاقبة Q-Learning من أجل التعرف على التعزيز الآمن CPQ
[ICLR 2022 (Spotlight)] Coptidice: التعلم التعزيز المتصلة بالإنترنت عبر تقدير تصحيح التوزيع الثابت
[ICML 2022] تحسين السياسة المتصلة بالإنترنت (COPO)

آحرون

[RA-L 2021] Recovery RL: التعلم الآمن مع مناطق الاسترداد المستفادة
[ICML 2022] SAUTIE RL: تعلم التعزيز الآمن تقريبًا باستخدام تكبير الدولة (SAUTERL)
[Neupips 2022] آثار زيادة حالة السلامة على الاستكشاف الآمن

أمثلة

 cd examples
python train_policy.py --algo PPOLag --env-id SafetyPointGoal1-v0 --parallel 1 --total-steps 10000000 --device cpu --vector-env-nums 1 --torch-threads 1

سجل الخوارزميات

المجالات	الأنواع	سجل الخوارزميات
على السياسة	بدائية المزدوجة	trpolag ppolag PDO RCPO
	بدائية المزدوجة	trpopid cppopid
	التحسين المحدب	CPO PCPO ؛ تركز كوب
	وظيفة العقوبة	الاكتتاب P3O
	البدائية	oncrpo
خارج السياسة	بدائية المزدوجة	DDPGLAG TD3LAG ساكلاغ
خارج السياسة	بدائية المزدوجة	DDPGPID ؛ TD3PID ؛ sacpid
على أساس النموذج	خطة عبر الإنترنت	Safeloop ccepets rcepets
على أساس النموذج	التقدير المتشائم	المكبس
دون اتصال	Q-Learning على أساس	bcqlag ؛ C-CRR
دون اتصال	قائم على الزهر	coptdice
صياغة أخرى MDP	ET-MDP	PPO المبكرة ؛ trpoearerlyinated
	Sauterl	pposaute trposaute
	سيمميرل	pposimmerpid. trposimmerpid

البيئات المدعومة

فيما يلي قائمة بالبيئات التي تدعمها السلامة-gymnasium:

فئة	مهمة	عامل	مثال
التنقل الآمن	الهدف [012]	النقطة ، السيارة ، سباق السباق ، النملة	SafetyPointGoal1-V0
	زر [012]
	دفع [012]
	الدائرة [012]
سرعة آمنة	سرعة	Halfchetah ، Hopper ، Swimmer ، Walker2d ، Ant ، Humanoid	SafetyHumanoidvelocity-V1
آمن إسحاق الصالة الرياضية	Overafefefinger	Shadowhand	Shadowhandoversafefinger
	overafejoint
	catchover2NunderArmsafefinger
	catchover2NunderArmsafejoint

لمزيد من المعلومات حول البيئات ، يرجى الرجوع إلى السلامة-Gymnasium.

تخصيص بيئتك

نحن نقدم واجهة بيئة مخصصة مرنة تتيح للمستخدمين تحقيق ما يلي دون تعديل رمز مصدر Omnisafe :

استخدم Omnisafe لتدريب الخوارزميات على بيئات مخصصة.
إنشاء البيئة مع معلمات شخصية محددة.
أكمل تسجيل المعلومات الخاصة بالبيئة في المسجل.

نحن نقدم دروسًا خطوة بخطوة حول تخصيص البيئة من الصفر والتخصيص البيئي من المجتمع لنقدم لك مقدمة مفصلة حول كيفية استخدام هذه الميزة غير العادية من Omnisafe.

ملاحظة: إذا وجدت مشكلة في تخصيص بيئتك ، فلا تتردد في فتح مشكلة أو مناقشة. يتم الترحيب بطلبات السحب أيضًا إذا كنت على استعداد للمساهمة في تنفيذ واجهة البيئات الخاصة بك.

حاول مع CLI

pip install omnisafe

omnisafe --help  # Ask for help

omnisafe benchmark --help  # The benchmark also can be replaced with 'eval', 'train', 'train-config'

# Quick benchmarking for your research, just specify:
# 1. exp_name
# 2. num_pool(how much processes are concurrent)
# 3. path of the config file (refer to omnisafe/examples/benchmarks for format)

# Here we provide an exampe in ./tests/saved_source.
# And you can set your benchmark_config.yaml by following it
omnisafe benchmark test_benchmark 2 ./tests/saved_source/benchmark_config.yaml

# Quick evaluating and rendering your trained policy, just specify:
# 1. path of algorithm which you trained
omnisafe eval ./tests/saved_source/PPO-{SafetyPointGoal1-v0} --num-episode 1

# Quick training some algorithms to validate your thoughts
# Note: use `key1:key2`, your can select key of hyperparameters which are recursively contained, and use `--custom-cfgs`, you can add custom cfgs via CLI
omnisafe train --algo PPO --total-steps 2048 --vector-env-nums 1 --custom-cfgs algo_cfgs:steps_per_epoch --custom-cfgs 1024

# Quick training some algorithms via a saved config file, the format is as same as default format
omnisafe train-config ./tests/saved_source/train_config.yaml

ابدء

تلميحات مهمة

لقد قدمنا نتائج قياسية لمختلف الخوارزميات ، بما في ذلك الأساليب على الجودة ، خارج السياسة ، القائمة على النماذج ، وغير متصل ، إلى جانب تحليل ضبط المعلمات. يرجى الرجوع إلى ما يلي:

على السياسة
خارج السياسة
على أساس النموذج
دون اتصال

QuickStart: كولاب على السحابة

استكشف Omnisafe بسهولة وبسرعة من خلال سلسلة من أجهزة الكمبيوتر المحمولة من Google Colab:

البدء في تقديم الاستخدام الأساسي لـ Omnisafe حتى يتمكن المستخدمون من تسليمه بسرعة.
CLI Command تقدم كيفية استخدام أداة CLI لـ Omnisafe.

يسعدنا أن نتعاون مع مستخدمينا لإنشاء برامج تعليمية بلغات مختلفة. يرجى الرجوع إلى قائمة اللغات المدعومة حاليًا. إذا كنت مهتمًا بترجمة البرنامج التعليمي إلى لغة جديدة أو تحسين إصدار موجود ، يرجى إرسال العلاقات العامة إلينا.

Changelog

انظر changelog.md.

المنشورات باستخدام Omnisafe

قمنا بتجميع قائمة من الأوراق التي تستخدم Omnisafe لتنفيذ أو تجريب الخوارزمية. إذا كنت على استعداد لتضمين عملك في هذه القائمة ، أو إذا كنت ترغب في دمج تطبيقك رسميًا في Omnisafe ، فلا تتردد في الاتصال بنا.

أوراق	الناشر
التعلم الآمن الأمان بدائي في السياسة	ICLR 2024
التعلم الآمن للاتصال بالإنترنت مع نموذج الانتشار الموجهة للجدوى	ICLR 2024
تقدير قابلية الوصول التكرارية لتعلم التعزيز الآمن	Neups 2023
رصيد المكافأة وتحسين السلامة لتعلم التعزيز الآمن: منظور التلاعب التدرج	AAAI 2024
قيود السلامة التعليمية من العرض التوضيحي باستخدام أشجار القرار من فئة واحدة	AAAI 2024 ورش العمل

فريق Omnisafe

تم تطوير Omnisafe بشكل رئيسي من قبل فريق الأبحاث Saferl من إخراج البروفيسور يودونغ يانغ. من بين أعضاء فريق البحث Saferl لدينا بورونج تشانغ وجياي تشو و Jtao Dai و Weidong Huang و Ruiyang Sun و Xuehai Pan و Jiaming Ji. إذا كانت لديك أي أسئلة في عملية استخدام Omnisafe ، فلا تتردد في طرح أسئلتك على صفحة إصدار GitHub ، فسنرد عليك في 2-3 أيام عمل.