عملي
دورة مفتوحة حول التعلم التعزيز في البرية. تم تدريسها في الحرم الجامعي في HSE و YSDA وحافظت عليها لتكون ودية للطلاب عبر الإنترنت (كل من اللغة الإنجليزية والروسية).
بيان:
- تحسين للفضول. بالنسبة لجميع المواد غير المغطاة بالتفصيل ، هناك روابط لمزيد من المعلومات والمواد ذات الصلة (D.Silver/Sutton/Blogs/أيا كان). سيكون للواجبات أقسام إضافية إذا كنت ترغب في الحفر بشكل أعمق.
- العملية أولاً. كل شيء ضروري لحل مشاكل التعلم التعزيز يستحق الذكر. لن نتجنب بعيدًا عن تغطية الحيل والاستدلال. لكل فكرة رئيسية يجب أن يكون هناك مختبر يجعلك "تشعر" به في مشكلة عملية.
- غيترة. هل تعرف طريقة لجعل الدورة أفضل؟ لاحظت خطأ مطبعي في صيغة؟ وجدت رابط مفيد؟ جعل الرمز أكثر قابلية للقراءة؟ صنع نسخة لإطار بديل؟ أنت رائع! سحب السحب!
معلومات بالطبع
مواد إضافية
منهج
المنهج هو تقريبي: قد تحدث المحاضرات بترتيب مختلف قليلاً وقد تنتهي بعض الموضوعات في نهاية المطاف.
Week01_Intro مقدمة
- محاضرة: مشاكل RL من حولنا. عمليات اتخاذ القرار. التحسين العشوائي ، طريقة المتقاطع. البحث عن مساحة المعلمة مقابل البحث عن الفضاء.
- ندوة: مرحبًا بك في Openai Gym. CEM Tabular لـ SARI-V0 ، CEM العميق لبيئات Box2D.
- الواجب المنزلي الوصف - انظر Week1/README.MD.
Week02_value_based الأساليب المستندة إلى القيمة
- محاضرة: مكافأة مخفضة MDP. النهج القائم على القيمة. تكرار القيمة. تكرار السياسة. تفشل المكافأة المخفضة.
- ندوة: تكرار القيمة.
- الواجب المنزلي الوصف - انظر Week2/README.MD.
week03_model_free التعلم التعزيز الخالي من النماذج
- محاضرة: Q-Learning. سارسا. خارج السياسة مقابل الخوارزميات على الجودة. خوارزميات N-Step. TD (Lambda).
- ندوة: Qlearning vs Sarsa vs القيمة المتوقعة Sarsa
- الواجب المنزلي الوصف - انظر Week3/README.MD.
recap_deep_learning - خلاصة التعلم العميق
- المحاضرة: التعلم العميق 101
- ندوة: مقدمة إلى Pytorch/TensorFlow ، تصنيف صور بسيط مع Convnets
week04_approx_rl تقريبي (عميق) RL
- محاضرة: مساحة الدولة اللانهائية/المستمرة. تقريب وظيفة تقريب. ظروف التقارب. عوامل متعددة خدعة. تجربة تجربة ، شبكات مستهدفة ، مزدوجة/مبارزة/bootstrap DQN ، إلخ.
- ندوة: تقريبية للتعلم مع إعادة تجربة تجربة. (Cartpole ، أتاري)
week05_explore الاستكشاف
- المحاضرة: قطاع الطرق السياق. Thompson Sampling ، UCB ، Bayesian UCB. الاستكشاف في RL القائم على النموذج ، MCTS. "عميق" الاستدلال للاستكشاف.
- ندوة: استكشاف بايزي للقطن السياقيين. UCB ل MCTS.
week06_policy_based أساليب التدرج السياسي
- المحاضرة: الدافع وراء السياسة ، التدرج السياسي ، خدعة لوجدري ، تعزيز/طريقة التبادل ، الحد من التباين (خط الأساس) ، Advantage Actor-Critic (Cinf. GAE)
- الندوة: تعزيز ، ميزة الممثل الناقد
week07_seq2seq التعلم التعزيز لنماذج التسلسل
- محاضرة: مشاكل مع البيانات المتسلسلة. الشبكات العصبية المتكررة. الخلفية عبر الزمن. التلاشي والانفجار التدرجات. LSTM ، جرو. لقطة التدرج
- الندوة: نموذج لغة RNN على مستوى الشخصية
week08_pomdp لوحظ جزئيًا MDP
- محاضرة: مقدمة POMDP. التعلم POMDP (وكلاء مع الذاكرة). تخطيط POMDP (POMCP ، إلخ)
- ندوة: Deep Kung-Fu & Doom مع A3C و DRQN المتكررة
week09_policy_ii الأساليب القائمة على السياسة المتقدمة
- المحاضرة: تحسين سياسة منطقة الثقة. NPO/PPO. تدرج السياسة الحتمية. DDPG
- ندوة: TRPO تقريبي للسيطرة على الروبوت البسيط.
week10_planning المستندة إلى النموذج RL & CO
- محاضرة: RL القائمة على النموذج ، التخطيط بشكل عام ، التعلم التقليدي وتعلم التعزيز العكسي
- ندوة: MCTS لمهام الألعاب
yoy_another_week العكسي RL والتعلم المقلد
- كل هذه الأشياء الرائعة التي لن تتعلمها من هذه الدورة :)
موظفي الدورة
مواد الدورة التدريبية والتدريس من قبل: [غير مرتبة]
- بافل شفيكيكوف - محاضرات ، حلقات دراسية ، فحوصات HW ، مجموعة القراءة
- Nikita Putintsev - حلقات دراسية ، فحوصات HW ، تنظيم فوضى الساخنة لدينا
- ألكساندر فريتسلر - محاضرات ، حلقات دراسية ، فحوصات HW
- Oleg Vasilev - حلقات دراسية ، فحوصات HW ، الدعم الفني
- ديمتري نيكولين - طن من الإصلاحات ، بعيدا وعريض
- Mikhail Konobeev - حلقات دراسية ، فحوصات HW
- إيفان خاريتونوف - حلقات دراسية ، فحوصات HW
- Ravil Khisamov - حلقات دراسية ، فحوصات HW
- آنا كلبوفا - فحوصات HW
- Fedor Ratnikov - Admin Stuff
مساهمات
- استخدام الصور من دورة بيركلي AI
- تشير بشكل كبير إلى CS294
- العديد من مهام TensorFlow من قبل Scitator
- الكثير من الإصلاحات من Arogozhnikov
- أشخاص رائعون آخرون: انظر المساهمين جيثب
- ساعدنا أليكسي أومنوف كثيرًا خلال ربيع 2018