¿Quieres que un agente RL se mueva bien en Atari?
¡Rainbow es todo lo que necesitas!
Este es un tutorial paso a paso de DQN a Rainbow. Cada capítulo contiene ambos antecedentes teóricos e implementación orientada a objetos. ¡Simplemente elija cualquier tema en el que esté interesado y aprenda! Puede ejecutarlos de inmediato con Colab incluso en su teléfono inteligente.
No dude en abrir un problema o una solicitud de extracción si tiene alguna idea para mejorarlo. :)
Si desea un tutorial para los métodos de gradiente de políticas, consulte PG es todo lo que necesita.
Contenido
- DQN [nbviewer] [colab]
- Doubledqn [nbviewer] [colab]
- PriorizedExperiencePlay [nbviewer] [colab]
- Duelingnet [nbviewer] [colab]
- Noisynet [nbviewer] [colab]
- CategóricoDqn [nbviewer] [colab]
- N-steplearning [nbviewer] [colab]
- Rainbow [nbviewer] [colab]
Requisitos previos
Este repositorio se prueba con Python 3.8+
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
Cómo correr
Documentos relacionados
- V. Mnih et al., "Control a nivel humano a través del aprendizaje de refuerzo profundo". Nature, 518 (7540): 529–533, 2015.
- Van Hasselt et al., "Aprendizaje de refuerzo profundo con doble aprendizaje Q". ARXIV Preprint ARXIV: 1509.06461, 2015.
- T. Schaul et al., "Reproducción de experiencia priorizada". Arxiv Preprint ARXIV: 1511.05952, 2015.
- Z. Wang et al., "Arquitecturas de red de duelo para el aprendizaje de refuerzo profundo". ARXIV Preprint ARXIV: 1511.06581, 2015.
- M. Fortunato et al., "Redes ruidosas para la exploración". Preimpresión ARXIV ARXIV: 1706.10295, 2017.
- MG Bellemare et al., "Una perspectiva de distribución sobre el aprendizaje de refuerzo". ARXIV Preprint ARXIV: 1707.06887, 2017.
- RS Sutton, "Aprender a predecir por los métodos de diferencias temporales". Aprendizaje automático, 3 (1): 9–44, 1988.
- M. Hessel et al., "Rainbow: combinando mejoras en el aprendizaje de refuerzo profundo". ARXIV Preprint ARXIV: 1710.02298, 2017.
Colaboradores
Gracias a estas maravillosas personas (Key Emoji):
Jinwoo Park (Curt)
| Kyunghwan Kim
| Wei Chen ? | Wang Lei ? | Leyaf
| ahmadf
| Roberto Schiavone
|
David Yuan
| dhanushka2001
|
Este proyecto sigue la especificación de todos los contribuyentes. ¡Contribuciones de cualquier tipo bienvenido!