Você quer um agente de RL se movendo bem no Atari?
Rainbow é tudo que você precisa!
Este é um tutorial passo a passo do DQN a Rainbow. Cada capítulo contém antecedentes teóricos e implementação orientada a objetos. Basta escolher qualquer tópico em que você esteja interessado e aprenda! Você pode executá -los imediatamente com o Colab, mesmo no seu smartphone.
Sinta-se à vontade para abrir um problema ou uma solicitação de tração, se tiver alguma idéia para melhorá-lo. :)
Se você deseja um tutorial para métodos de gradiente de políticas, consulte PG é tudo o que você precisa.
Conteúdo
- DQN [NBVIEWER] [COLAB]
- Doubledqn [NBViewer] [colab]
- PriorizedExPeriencereplay [NBViewer] [colab]
- DuelingNet [NBViewer] [Colab]
- Noisynet [NBViewer] [colab]
- Categoricaldqn [nbViewer] [colab]
- N-Stepearning [NBViewer] [Colab]
- Rainbow [NBViewer] [Colab]
Pré -requisitos
Este repositório é testado com Python 3.8+
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
Como correr
Artigos relacionados
- V. Mnih et al., "Controle no nível humano através do aprendizado de reforço profundo". Nature, 518 (7540): 529-533, 2015.
- Van Hasselt et al., "Aprendizagem de reforço profundo com duplo q-learning". Arxiv pré -impressão Arxiv: 1509.06461, 2015.
- T. Schaul et al., "Experiência priorizada Replay". Arxiv pré -impressão Arxiv: 1511.05952, 2015.
- Z. Wang et al., "Duelando arquiteturas de rede para aprendizado de reforço profundo". Arxiv pré -impressão Arxiv: 1511.06581, 2015.
- M. Fortunato et al., "Redes barulhentas para exploração". Arxiv pré -impressão Arxiv: 1706.10295, 2017.
- MG Bellemare et al., "Uma perspectiva distributiva sobre o aprendizado de reforço". Arxiv pré -impressão Arxiv: 1707.06887, 2017.
- RS Sutton, "Aprendendo a prever pelos métodos de diferenças temporais". Machine Learning, 3 (1): 9–44, 1988.
- M. Hessel et al., "Rainbow: Combinando melhorias no aprendizado de reforço profundo". Arxiv pré -impressão Arxiv: 1710.02298, 2017.
Colaboradores
Obrigado a essas pessoas maravilhosas (key emoji):
Jinwoo Park (Curt)
| Kyunghwan Kim
| Wei Chen ? | Wang Lei ? | Leeyaf
| Ahmadf
| Roberto Schiavone
|
David Yuan
| dhanushka2001
|
Este projeto segue a especificação de todos os contribuintes. Contribuições de qualquer tipo de boas -vindas!