Deeprl-tutorials
تهدف دفاتر ملاحظات Ipython هذه في الغالب إلى مساعدتي في التدريب وفهم الأوراق التي قرأتها ؛ وبالتالي ، سأختار قابلية القراءة على الكفاءة في بعض الحالات. أولاً ، سيتم تحميل التنفيذ ، تليها Markup لشرح كل جزء من التعليمات البرمجية. سأقوم بتعيين الائتمان لأي رمز يتم استعارة في قسم الإقرار في هذا ReadMe.
الأوراق ذات الصلة:
- السيطرة على المستوى البشري من خلال التعلم العميق [النشر] [رمز]
- التعلم متعدد الخطوات (من التعلم التعزيز: مقدمة ، الفصل 7) [النشر] [رمز]
- تعلم التعزيز العميق مع التعلم Q مزدوج [النشر] [رمز]
- بنية شبكة المبارزة لتعلم التعزيز العميق [النشر] [رمز]
- شبكات صاخبة للاستكشاف [النشر] [رمز]
- إعادة تشغيل الأولوية لإعادة تشغيل [النشر] [رمز]
- منظور توزيعي حول التعلم التعزيز [النشر] [رمز]
- قوس قزح: الجمع بين التحسينات في تعلم التعزيز العميق [النشر] [رمز]
- تعلم التعزيز التوزيعي مع الانحدار الكمي [النشر] [رمز]
- قوس قزح مع الانحدار الكمي [رمز]
- التعليم العميق المتكرر Q لـ MDPs يمكن ملاحظته جزئيًا [النشر] [رمز]
- Advantage Actor Critic (A2C) [Publication1] [publication2] [Code]
- السيطرة المستمرة عالية الأبعاد باستخدام تقدير الميزة المعممة [النشر] [رمز]
- خوارزميات تحسين السياسة القريبة [النشر] [رمز]
متطلبات:
- بيثون 3.6
- numpy
- نادي رياضي
- Pytorch 0.4.0
- Matplotlib
- OpenCV
- خطوط
شكر وتقدير:
- الائتمان لـ baseLines لأغلفة البيئة وإلهام رمز إعادة التشغيل الأولويات المستخدمة فقط في رمز التطوير
- الائتمان إلى higgsfield للحصول على رمز التخطيط ، رمز الصلب epsilon ، وإلهام لتنفيذ إعادة التشغيل الأولوية في دفتر ipython
- الائتمان إلى kixhin لتنفيذ الطبقة الخطية الصاخبة المعمول
- الائتمان لـ @ikostrikov لـ A2C و GAE و PPO و Visdom مرجع تنفيذ رمز التخطيط