Deeprl
إذا كان لديك أي سؤال أو ترغب في الإبلاغ عن خطأ ، فيرجى فتح مشكلة بدلاً من إرسال بريد إلكتروني إلي مباشرة.
التنفيذ المعياري لخوارزميات RL العميقة الشعبية في Pytorch.
سهولة التبديل بين مهام اللعبة والألعاب الصعبة.
الخوارزميات المنفذة:
- (مزدوج/مبارزة/أولويات) العلم العميق (DQN)
- DQN الفئوي (C51)
- الانحدار الكمي DQN (QR-DQN)
- (مستمر/منفصل) ناقد الممثل ميزة متزامنة (A2C)
- N-Step Q-Learning متزامن (N-Step DQN)
- تدرج السياسة الحتمية العميقة (DDPG)
- تحسين السياسة القريبة (PPO)
- الهندسة المعمارية النحوية للخيار (OC)
- تأخير DDPG المتأخر (TD3)
- Off-Pac-KL/TruncatedETD/ValivialGQ/MVPI/REVERSERL/COF-PAC/GRADIENTDICE/BI-RES-DDPG/DAC/GEOFF-PAC/ACE/ACE
لدى وكيل DQN ، وكذلك C51 و QR-DQN ، ممثل غير متزامن لتوليد البيانات ومخزن مؤقت غير متزامن لنقل البيانات إلى GPU. باستخدام 1 RTX 2080 TI و 3 مؤشرات ترابط ، يعمل وكيل DQN لمدة 10 أمتار خطوة (40 متر إطارات ، تحديثات التدرج 2.5M) للاطلاع على الانهيار في غضون 6 ساعات.
التبعية
- Pytorch v1.5.1
- انظر
Dockerfile و requirements.txt لمزيد من التفاصيل
الاستخدام
examples.py يحتوي على أمثلة لجميع الخوارزميات التي تم تنفيذها.
يحتوي Dockerfile على البيئة لتوليد المنحنيات أدناه.
يرجى استخدام هذا bibtex إذا كنت تريد الاستشهاد بهذا الريبو
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
منحنيات (ارتكاب 9e811e )
breakoutnoframeskip-v4 (تشغيل واحد)
mujoco
مراجع
- السيطرة على المستوى البشري من خلال التعلم التعزيز العميق
- طرق غير متزامنة لتعلم التعزيز العميق
- تعلم التعزيز العميق مع التعلم Q مزدوج
- مبادرات شبكات البنية لتعلم التعزيز العميق
- لعب أتاري مع التعلم التعزيز العميق
- Hogwild!: نهج خالي من القفل لتوازيى النسب العشوائي
- خوارزميات تدرج السياسة الحتمية
- السيطرة المستمرة مع التعلم التعزيز العميق
- تحكم مستمر عالي الأبعاد باستخدام تقدير الميزة المعمم
- هندسة مكافأة هجينة للتعلم التعزيز
- تحسين سياسة منطقة الثقة
- خوارزميات تحسين السياسة القريبة
- ظهور سلوكيات الحركة في البيئات الغنية
- التنبؤ بالفيديو المشروط باستخدام الشبكات العميقة في ألعاب Atari
- منظور توزيعي حول التعلم التعزيز
- تعلم التعزيز التوزيعي مع الانحدار الكمي
- العمارة الناقدة للخيار
- معالجة خطأ تقريب الوظائف في الأساليب الناقدة للممثل
- بعض المعلمات المفرطة هي من جناح التحكم في DeepMind وخطوط الأساس Openai و Ilya Kostrikov
رمز أوراقي
وهي موجودة في فروع أخرى من هذا الريبو ويبدو أنها أمثلة جيدة لاستخدام قاعدة البيانات هذه.
- الأمثلية العالمية وتحليل العينة المحدودة للناقد الممثل الخارجي للسياسة تحت عدم تطابق توزيع الدولة [OFF-PAC-KL]
- طرق الاختلاف الزمني المؤكد المقطوع للتنبؤ والتحكم [TruncatedETD]
- نظرة أعمق على عدم التوافق في الخوارزميات الناقدة للممثلين [خصم]
- كسر الثلاثي المميت مع شبكة مستهدفة [TargetNetwork]
- متوسط تقييم السياسة خارج السياسة مع تقريب الوظيفة [التفاضلية]
- تكرار سياسة التباين المتوسط لتعلم تعزيز المخاطر [MVPI]
- تعلم المعرفة بأثر رجعي مع تعلم التعزيز العكسي [REVERSERL]
- الممثل المتقارب خارج السياسة المتقاربين مع تقريب الوظيفة [COF-PAC ، TD3-RANDOM]
- GradientDice: إعادة التفكير في التقدير المتصلة بالإنترنت المعمم للقيم الثابتة [GradientDice]
- التعلم التعزيز المتبقي العميق [ثنائية الدقة DDPG]
- الممثل المعمم خارج السياسة الناقدة [Geoff-PAC ، TD3-RANDOM]
- DAC: العمارة المزدوجة الممثل الناقد لخيارات التعلم [DAC]
- الحصص: بنية الخيار الكمي لتعلم التعزيز [الحصص المزيفة ، الحصص غير المتواصلة]
- ACE: خوارزمية فرقة الممثل للتحكم المستمر مع البحث عن الأشجار [ACE]