PPO PyTorch Download - PPO PyTorch Source Code Download

PPO PyTorch

بايثون

1.0.0

تنزيل

PPO-Pytorch

تحديث [أبريل 2021]:

خوارزميات منفصلة ومستمرة
تمت إضافة التحلل الخطي للمساحة الإجراءات المستمرة action_std ؛ لجعل التدريب أكثر استقرارًا للبيئات المعقدة
تمت إضافة معدلات تعليمية مختلفة للممثل والناقد
يتم الآن تسجيل الدخول إلى الحلقات ، والأوقات الزمنية والمكافآت .csv
يستخدم لرسم الرسوم البيانية من ملفات السجل
تستخدم للاختبار وصنع صور GIF من الشبكات المسبقة
PPO_colab.ipynb دمج جميع الملفات لتدريب / اختبار / رسم الرسوم البيانية / صنع صور GIF على Google Colab في كتاب jupyter-notebook مناسب

افتح `PPO_colab.ipynb` في Google Colab

مقدمة

يوفر هذا المستودع الحد الأدنى من تنفيذ Pytorch لتحسين السياسة القريبة (PPO) مع الهدف المقطوع لبيئات صالة الألعاب الرياضية Openai. إنه مخصص في المقام الأول للمبتدئين في التعلم التعزيز لفهم خوارزمية PPO. لا يزال من الممكن استخدامه للبيئات المعقدة ولكن قد يتطلب بعض التثبيت أو التغييرات في الكود. يمكن العثور على شرح موجز لخوارزمية PPO هنا ويمكن العثور على شرح شامل لجميع التفاصيل لتنفيذ أفضل PPO أداءً هنا (لا يتم تنفيذها في هذا الريبو بعد).

للحفاظ على إجراء التدريب بسيط:

له انحراف معياري ثابت لتوزيع عمل الإخراج ( Multivariate Normal مع مصفوفة التغاير القطري ) للبيئات المستمرة ، أي أنه مقياس فرطمي وليس معلمة قابلة للتدريب. ومع ذلك ، فهي تتحلل خطيا . (Action_std يؤثر بشكل كبير على الأداء)
ويستخدم تقديرات Monte-Carlo البسيطة لحساب المزايا وليس تقدير الميزة المعممة (تحقق من تطبيق Openai للدوران لذلك).
إنه تطبيق واحد الخيوط ، أي عامل واحد فقط يجمع الخبرة. تم تعديل أحد الشوكات الأقدم في هذا المستودع

الاستخدام

لتدريب شبكة جديدة: Run train.py
لاختبار شبكة مسبقة: قم بتشغيل test.py
لرسم الرسوم البيانية باستخدام ملفات السجل: تشغيل plot_graph.py
لحفظ الصور لـ GIF وجعل GIF باستخدام شبكة مسبقة: تشغيل make_gif.py
جميع المعلمات وفرطات .py للتحكم
يجمع PPO_colab.ipynb بين جميع الملفات الموجودة في جيبتر نوت
يتم إدراج جميع السياسات المفرطة في التدريب (المسبق) في الدليل README.md

ملحوظة :

إذا كانت البيئة تعمل على وحدة المعالجة المركزية ، فاستخدم وحدة المعالجة المركزية كجهاز للتدريب بشكل أسرع. Box-2d و Roboschool Run على وحدة المعالجة المركزية وتدريبهم على جهاز GPU سيكون أبطأ بكثير لأن البيانات سيتم نقلها بين وحدة المعالجة المركزية و GPU في كثير من الأحيان

نقلا عن

يرجى استخدام هذا bibtex إذا كنت تريد الاستشهاد بهذا المستودع في منشوراتك:

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}