实用_rl
关于野外加强学习的开放课程。在HSE和YSDA教授校园,并保持对在线学生(英语和俄语)友好。
宣言:
- 为好奇优化。对于所有未详细介绍的材料,都有指向更多信息和相关材料的链接(D.Silver/Sutton/Blog/whitch)。如果您想更深入地挖掘,任务将有奖励部分。
- 实用性首先。解决强化学习问题所必需的一切都值得一提。我们不会避开涵盖技巧和启发式方法。对于每个主要想法,都应该有一个实验室,使您在实际问题上“感觉到”它。
- git course。知道一种使课程更好的方法吗?注意到公式中的错字吗?找到有用的链接?使代码更可读?为替代框架制作了版本?你很棒!拉起!
课程信息
其他材料
教学大纲
教学大纲是近似的:讲座可能以略有不同的顺序进行,一些主题可能最终需要两个星期。
Week01_intro介绍
- 讲座:我们周围的RL问题。决策过程。随机优化,Crossentropy方法。参数空间搜索与动作空间搜索。
- 研讨会:欢迎参加OpenAI体育馆。出租车V0的表格CEM,Box2D环境的深CEM。
- 作业说明 - 请参阅Week1/readme.md。
Week02_value_b的基于基于值的方法
- 讲座:折扣奖励MDP。基于价值的方法。价值迭代。政策迭代。打折的奖励失败。
- 研讨会:价值迭代。
- 作业描述 - 请参阅Week2/readme.md。
Week03_model_free无模型增强学习
- 讲座:Q学习。萨尔。非政策算法。 N步长算法。 TD(Lambda)。
- 研讨会:QLEALNING与SARSA vs预期价值SARSA
- 作业描述 - 请参阅Week3/readme.md。
recap_deep_learning-深度学习回顾
- 讲座:深度学习101
- 研讨会:Pytorch/Tensorflow的简介,简单的图像分类
Week04_approx_rl大约(深)RL
- 讲座:无限/连续状态空间。值函数近似。收敛条件。多个代理商的技巧;体验重播,目标网络,双/决斗/自举DQN等。
- 研讨会:经验重播的近似Q学习。 (Cartpole,Atari)
Week05_Explore探索
- 讲座:上下文匪徒。汤普森采样,UCB,贝叶斯UCB。基于模型的RL探索MCT。探索的“深度”启发式方法。
- 研讨会:贝叶斯探索上下文土匪。 UCB用于MCT。
Week06_policy_based政策梯度方法
- 讲座:基于政策的动机,策略梯度,对数的技巧,增强/Crossentropy方法,差异降低(基线),优势参与者 - 批评(包括GAE)
- 研讨会:加强,优势演员评论
Week07_seq2Seq的序列模型增强学习
- 讲座:顺序数据问题。复发性神经网络。返回时间。消失和爆炸梯度。 LSTM,Gru。梯度剪裁
- 研讨会:角色级RNN语言模型
Week08_POMDP部分观察到MDP
- 讲座:POMDP简介。 POMDP学习(具有内存的代理)。 POMDP计划(POMCP等)
- 研讨会:深功能和厄运,带有反复的A3C和DRQN
Week09_policy_ii高级基于策略的方法
- 讲座:信任区域政策优化。 NPO/PPO。确定性政策梯度。 DDPG
- 研讨会:简单机器人控制的近似TRPO。
Week10_Planning基于模型的RL&CO
- 讲座:基于模型的RL,一般计划,模仿学习和逆增强学习
- 研讨会:玩具任务的MCT
arty_another_week逆RL和模仿学习
课程人员
课程材料和教学作者: [未命令]
- Pavel Shvechikov-讲座,研讨会,HW检查,阅读小组
- Nikita putintsev-研讨会,HW检查,组织我们的热混乱
- 亚历山大·弗里斯勒(Alexander Fritsler) - 讲座,研讨会,HW检查
- Oleg Vasilev-研讨会,HW检查,技术支持
- dmitry nikulin-大量的固定量
- Mikhail Konobeev-研讨会,HW检查
- 伊万·哈里托诺夫(Ivan Kharitonov) - 研讨会,HW检查
- Ravil Khisamov-研讨会,HW检查
- Anna Klepova -HW检查
- Fedor Ratnikov-管理员
贡献
- 使用伯克利AI课程的图片
- 大量指CS294
- 鉴于刻痕器的几个张量。
- Arogozhnikov的很多修复程序
- 其他很棒的人:请参阅Github贡献者
- Alexey Umnov在2018年春季为我们提供了很多帮助