您是否希望RL代理很好地搬进Atari?
彩虹就是您所需要的!
这是从DQN到彩虹的逐步教程。每一章都包含理论背景和面向对象的实现。只需选择您感兴趣的任何主题,然后学习!即使在智能手机上,您也可以立即使用Colab执行它们。
如果您有任何想法使它变得更好,请随时打开问题或抽签。 :)
如果您想要有关策略梯度方法的教程,请参阅PG就是您所需要的。
内容
- DQN [NBViewer] [COLAB]
- DoubleDQN [NBViewer] [COLAB]
- PrioritizedExperienceReplay [NBViewer] [COLAB]
- duelingnet [nbviewer] [colab]
- noisynet [nbviewer] [colab]
- 分类DQN [NBViewer] [COLAB]
- n- steplearning [nbviewer] [colab]
- 彩虹[NBViewer] [COLAB]
先决条件
该存储库用Python 3.8+测试
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
如何运行
相关论文
- V. Mnih等人,“通过深厚的增强学习来控制人类水平的控制”。 Nature,518(7540):529–533,2015。
- Van Hasselt等人,“双重Q学习的深度加固学习”。 Arxiv预印型ARXIV:1509.06461,2015。
- T. Schaul等人,“优先的经验重播”。 Arxiv预印型ARXIV:1511.05952,2015。
- Z. Wang等人,“用于深入强化学习的决斗网络架构”。 Arxiv预印型ARXIV:1511.06581,2015。
- M. Fortunato等人,“探索嘈杂的网络”。 ARXIV预印型ARXIV:1706.10295,2017。
- MG Bellemare等人,“关于强化学习的分布观点”。 Arxiv预印型ARXIV:1707.06887,2017。
- RS Sutton,“学习通过时间差异的方法进行预测”。机器学习,3(1):9-44,1988。
- M. Hessel等人,“ Rainbow:结合了深度强化学习的改进”。 ARXIV预印型ARXIV:1710.02298,2017。
贡献者
谢谢这些好人(表情符号钥匙):
金沃公园(Curt)
| Kyunghwan Kim
| Wei Chen ? | 王雷 ? | Leeyaf
| 艾哈迈德
| 罗伯托·席森(Roberto Schiavone)
|
大卫元
| Dhanushka2001
|
该项目遵循全企业规范。欢迎任何形式的贡献!