DeepRL-Tutexys
這些Ipython筆記本的目的主要是為了幫助我練習和理解我閱讀的論文;因此,在某些情況下,我將選擇可讀性而不是效率。首先,實現將上傳,然後進行加價以解釋代碼的每個部分。我將分配此代碼中藉來的任何代碼的信用,該代碼在本讀書中的“確認”部分中。
相關論文:
- 通過深度強化學習[出版] [代碼]的人類水平控制
- 多步學習(從強化學習:簡介,第7章)[出版] [代碼]
- 通過雙重Q學習[出版] [代碼]深度加強學習
- 針對深度強化學習的決鬥網絡體系結構[出版] [代碼]
- 用於探索的嘈雜網絡[出版] [代碼]
- 優先經驗重播[出版] [代碼]
- 關於強化學習的分配觀點[出版] [代碼]
- 彩虹:結合深度加固學習的改進[出版] [代碼]
- 通過分數回歸[出版] [代碼]的分配加固學習
- 帶分位數回歸的彩虹[代碼]
- 對部分可觀察的MDP [出版] [代碼]的深度重複學習
- 優勢演員評論家(A2C)[Publication1] [Publication2] [代碼]
- 使用廣義優勢估計[出版] [代碼]的高維連續控制
- 近端策略優化算法[出版] [代碼]
要求:
- Python 3.6
- numpy
- 健身房
- Pytorch 0.4.0
- matplotlib
- OPENCV
- 巴斯線
致謝:
- 歸功於環境包裝器的@Baselines和僅在開發代碼中使用的優先重播代碼的靈感
- 感謝@higgsfield的繪圖代碼,Epsilon退火代碼以及IPYTHON筆記本中優先重播實現的靈感
- 感謝@kaixhin進行分解的噪聲線性層實現和provistion_distribution函數,可在分類dqn.ipynb中找到
- 歸功於@ikostrikov的A2C,GAE,PPO和VIDDON繪製代碼實現參考