Voulez-vous qu'un agent RL évolue bien à Atari?
Rainbow est tout ce dont vous avez besoin!
Il s'agit d'un tutoriel étape par étape de DQN à Rainbow. Chaque chapitre contient à la fois des antécédents théoriques et de l'implémentation orientée objet. Choisissez simplement tout sujet dans lequel vous êtes intéressé et apprenez! Vous pouvez les exécuter immédiatement avec Colab même sur votre smartphone.
N'hésitez pas à ouvrir un problème ou une requête de traction si vous avez une idée de l'améliorer. :)
Si vous voulez un tutoriel pour les méthodes de gradient de politique, veuillez voir PG est tout ce dont vous avez besoin.
Contenu
- Dqn [nbViewer] [colab]
- DoubledQn [nbViewer] [Colab]
- Prioritalizexperiencereplay [nbViewer] [Colab]
- Duellingnet [nbViewer] [Colab]
- Noisynet [nbViewer] [Colab]
- Catégoricaldqn [nbViewer] [colab]
- N-Steplearning [nbViewer] [Colab]
- Rainbow [nbViewer] [Colab]
Condition préalable
Ce référentiel est testé avec Python 3.8+
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
Comment courir
Documents connexes
- V. Mnih et al., "Contrôle au niveau de l'homme par l'apprentissage en renforcement profond". Nature, 518 (7540): 529–533, 2015.
- Van Hasselt et al., "Apprentissage en renforcement profond avec double Q-Learning". ARXIV Préprint Arxiv: 1509.06461, 2015.
- T. Schaul et al., "REMPLACE D'EXPÉRIENCE SUR LA PRIMATIFATION". ARXIV Préprint Arxiv: 1511.05952, 2015.
- Z. Wang et al., «Duel Architectures Network for Deep Reinforcement Learning». ARXIV Préprint Arxiv: 1511.06581, 2015.
- M. Fortunato et al., "Networks for Networks for Exploration." ARXIV Préprint Arxiv: 1706.10295, 2017.
- Mg Bellemare et al., "Une perspective distributionnelle sur l'apprentissage du renforcement." ARXIV Préprint Arxiv: 1707.06887, 2017.
- RS Sutton, «Apprendre à prédire par les méthodes de différences temporelles». Machine Learning, 3 (1): 9–44, 1988.
- M. Hessel et al., "Rainbow: combinaison des améliorations de l'apprentissage en renforcement profond". ARXIV Préprint Arxiv: 1710.02298, 2017.
Contributeurs
Merci à ces gens merveilleux (clé emoji):
Jinwoo Park (Curt)
| Kyunghwan Kim
| Wei Chen ? | Wang Lei ? | leeyaf
| ahmadf
| Roberto Schiavone
|
David Yuan
| dhanushka2001
|
Ce projet suit les spécifications de tous les contributeurs. Contributions de toute nature bienvenue!