DeepRL-Tutexys
这些Ipython笔记本的目的主要是为了帮助我练习和理解我阅读的论文;因此,在某些情况下,我将选择可读性而不是效率。首先,实现将上传,然后进行加价以解释代码的每个部分。我将分配此代码中借来的任何代码的信用,该代码在本读书中的“确认”部分中。
相关论文:
- 通过深度强化学习[出版] [代码]的人类水平控制
- 多步学习(从强化学习:简介,第7章)[出版] [代码]
- 通过双重Q学习[出版] [代码]深度加强学习
- 针对深度强化学习的决斗网络体系结构[出版] [代码]
- 用于探索的嘈杂网络[出版] [代码]
- 优先经验重播[出版] [代码]
- 关于强化学习的分配观点[出版] [代码]
- 彩虹:结合深度加固学习的改进[出版] [代码]
- 通过分数回归[出版] [代码]的分配加固学习
- 带分位数回归的彩虹[代码]
- 对部分可观察的MDP [出版] [代码]的深度重复学习
- 优势演员评论家(A2C)[Publication1] [Publication2] [代码]
- 使用广义优势估计[出版] [代码]的高维连续控制
- 近端策略优化算法[出版] [代码]
要求:
- Python 3.6
- numpy
- 健身房
- Pytorch 0.4.0
- matplotlib
- OPENCV
- 巴斯线
致谢:
- 归功于环境包装器的@Baselines和仅在开发代码中使用的优先重播代码的灵感
- 感谢@higgsfield的绘图代码,Epsilon退火代码以及IPYTHON笔记本中优先重播实现的灵感
- 感谢@kaixhin进行分解的噪声线性层实现和provistion_distribution函数,可在分类dqn.ipynb中找到
- 归功于@ikostrikov的A2C,GAE,PPO和VIDDON绘制代码实现参考