實用_rl
關於野外加強學習的開放課程。在HSE和YSDA教授校園,並保持對在線學生(英語和俄語)友好。
宣言:
- 為好奇優化。對於所有未詳細介紹的材料,都有指向更多信息和相關材料的鏈接(D.Silver/Sutton/Blog/whitch)。如果您想更深入地挖掘,任務將有獎勵部分。
- 實用性首先。解決強化學習問題所必需的一切都值得一提。我們不會避開涵蓋技巧和啟發式方法。對於每個主要想法,都應該有一個實驗室,使您在實際問題上“感覺到”它。
- git course。知道一種使課程更好的方法嗎?注意到公式中的錯字嗎?找到有用的鏈接?使代碼更可讀?為替代框架製作了版本?你很棒!拉起!
課程信息
其他材料
教學大綱
教學大綱是近似的:講座可能以略有不同的順序進行,一些主題可能最終需要兩個星期。
Week01_intro介紹
- 講座:我們周圍的RL問題。決策過程。隨機優化,Crossentropy方法。參數空間搜索與動作空間搜索。
- 研討會:歡迎參加OpenAI體育館。出租車V0的表格CEM,Box2D環境的深CEM。
- 作業說明 - 請參閱Week1/readme.md。
Week02_value_b的基於基於值的方法
- 講座:折扣獎勵MDP。基於價值的方法。價值迭代。政策迭代。打折的獎勵失敗。
- 研討會:價值迭代。
- 作業描述 - 請參閱Week2/readme.md。
Week03_model_free無模型增強學習
- 講座:Q學習。薩爾。非政策算法。 N步長算法。 TD(Lambda)。
- 研討會:QLEALNING與SARSA vs預期價值SARSA
- 作業描述 - 請參閱Week3/readme.md。
recap_deep_learning-深度學習回顧
- 講座:深度學習101
- 研討會:Pytorch/Tensorflow的簡介,簡單的圖像分類
Week04_approx_rl大約(深)RL
- 講座:無限/連續狀態空間。值函數近似。收斂條件。多個代理商的技巧;體驗重播,目標網絡,雙/決鬥/自舉DQN等。
- 研討會:經驗重播的近似Q學習。 (Cartpole,Atari)
Week05_Explore探索
- 講座:上下文匪徒。湯普森採樣,UCB,貝葉斯UCB。基於模型的RL探索MCT。探索的“深度”啟發式方法。
- 研討會:貝葉斯探索上下文土匪。 UCB用於MCT。
Week06_policy_based政策梯度方法
- 講座:基於政策的動機,策略梯度,對數的技巧,增強/Crossentropy方法,差異降低(基線),優勢參與者 - 批評(包括GAE)
- 研討會:加強,優勢演員評論
Week07_seq2Seq的序列模型增強學習
- 講座:順序數據問題。復發性神經網絡。返回時間。消失和爆炸梯度。 LSTM,Gru。梯度剪裁
- 研討會:角色級RNN語言模型
Week08_POMDP部分觀察到MDP
- 講座:POMDP簡介。 POMDP學習(具有內存的代理)。 POMDP計劃(POMCP等)
- 研討會:深功能和厄運,帶有反复的A3C和DRQN
Week09_policy_ii高級基於策略的方法
- 講座:信任區域政策優化。 NPO/PPO。確定性政策梯度。 DDPG
- 研討會:簡單機器人控制的近似TRPO。
Week10_Planning基於模型的RL&CO
- 講座:基於模型的RL,一般計劃,模仿學習和逆增強學習
- 研討會:玩具任務的MCT
arty_another_week逆RL和模仿學習
課程人員
課程材料和教學作者: [未命令]
- Pavel Shvechikov-講座,研討會,HW檢查,閱讀小組
- Nikita putintsev-研討會,HW檢查,組織我們的熱混亂
- 亞歷山大·弗里斯勒(Alexander Fritsler) - 講座,研討會,HW檢查
- Oleg Vasilev-研討會,HW檢查,技術支持
- dmitry nikulin-大量的固定量
- Mikhail Konobeev-研討會,HW檢查
- 伊万·哈里托諾夫(Ivan Kharitonov) - 研討會,HW檢查
- Ravil Khisamov-研討會,HW檢查
- Anna Klepova -HW檢查
- Fedor Ratnikov-管理員
貢獻
- 使用伯克利AI課程的圖片
- 大量指CS294
- 鑑於刻痕器的幾個張量。
- Arogozhnikov的很多修復程序
- 其他很棒的人:請參閱Github貢獻者
- Alexey Umnov在2018年春季為我們提供了很多幫助