Möchten Sie einen RL -Agenten, der sich gut auf Atari bewegt?
Regenbogen ist alles was du brauchst!
Dies ist ein Schritt-für-Schritt-Tutorial von DQN bis Rainbow. Jedes Kapitel enthält sowohl theoretische Hintergründe als auch objektorientierte Implementierung. Wählen Sie einfach ein Thema aus, an dem Sie interessiert sind, und lernen Sie! Sie können sie sofort auch auf Ihrem Smartphone mit Colab ausführen.
Bitte zögern Sie nicht, ein Problem oder eine Pull-Request zu öffnen, wenn Sie eine Idee haben, um es besser zu machen. :)
Wenn Sie ein Tutorial für Richtliniengradientenmethoden wünschen, siehe PG alles, was Sie brauchen.
Inhalt
- DQN [NBViewer] [Colab]
- Doubledqn [NBViewer] [Colab]
- PrioritedExperiencereplay [NBViewer] [Colab]
- DuellingNet [NBViewer] [Colab]
- NoiSynet [NBViewer] [Colab]
- CategoricalDQN [NBViewer] [Colab]
- N-Steplearning [NBViewer] [Colab]
- Rainbow [NBViewer] [Colab]
Voraussetzungen
Dieses Repository wird mit Python 3.8+ getestet
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
Wie man rennt
Verwandte Papiere
- V. Mnih et al., "Kontrolle der Menschen auf Menschenebene durch tiefes Verstärkungslernen". Nature, 518 (7540): 529–533, 2015.
- Van Hasselt et al., "Tiefes Verstärkung mit doppeltem Q-Learning." Arxiv Preprint Arxiv: 1509.06461, 2015.
- T. Schaul et al., "Priorisierte Erfahrung" Wiederholung ". Arxiv Preprint Arxiv: 1511.05952, 2015.
- Z. Wang et al., "Duelling -Netzwerkarchitekturen für tiefes Verstärkungslernen". Arxiv Preprint Arxiv: 1511.06581, 2015.
- M. Fortunato et al., "Laute Netzwerke für die Erkundung". Arxiv Preprint Arxiv: 1706.10295, 2017.
- MG Bellemare et al., "Eine Verteilungsperspektive auf das Verstärkungslernen." Arxiv Preprint Arxiv: 1707.06887, 2017.
- RS Sutton, "Lernen, mit den Methoden zeitlicher Unterschiede vorherzusagen." Maschinelles Lernen, 3 (1): 9–44, 1988.
- M. Hessel et al., "Regenbogen: Verbesserungen im tiefen Verstärkungslernen kombinieren." Arxiv Preprint Arxiv: 1710.02298, 2017.
Mitwirkende
Vielen Dank an diese wunderbaren Menschen (Emoji -Schlüssel):
Jinwoo Park (Curt)
| Kyunghwan Kim
| Wei Chen ? | Wang Lei ? | Leeyaf
| Ahmadf
| Roberto Schiavone
|
David Yuan
| Dhanushka2001
|
Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!