Deeprl-Tutorials
Die Absicht dieser Ipython -Notizbücher besteht hauptsächlich darin, mir zu helfen, die von mir gelesenen Papiere zu üben und zu verstehen. Daher werde ich mich in einigen Fällen für die Lesbarkeit über die Effizienz entscheiden. Zunächst wird die Implementierung hochgeladen, gefolgt von Markup, um jeden Teil des Codes zu erläutern. Ich werde einen Kredit für jeden Code zuweisen, der im Abschnitt "Anerkennung" dieses Readme geliehen wird.
Relevante Papiere:
- Kontrolle der menschlichen Ebene durch tiefes Verstärkungslernen [Veröffentlichung] [Code]
- Multi-Step-Lernen (aus Verstärkungslernen: Eine Einführung, Kapitel 7) [Veröffentlichung] [Code]
- Tiefe Verstärkung Lernen mit Doppel-Q-Learning [Veröffentlichung] [Code]
- Duelling -Netzwerkarchitekturen für Tiefverstärkungslernen [Veröffentlichung] [Code]
- Laute Netzwerke für die Exploration [Veröffentlichung] [Code]
- Priorisierte Erfahrung Wiederholung [Veröffentlichung] [Code]
- Eine Verteilungsperspektive auf Verstärkungslernen [Veröffentlichung] [Code]
- Regenbogen: Kombination Verbesserungen im tiefen Verstärkungslernen [Veröffentlichung] [Code]
- Verteilungsverstärkung Lernen mit quantiler Regression [Veröffentlichung] [Code]
- Regenbogen mit quantiler Regression [Code]
- Tiefes rezidivierendes Q-Learning für teilweise beobachtbare MDPs [Veröffentlichung] [Code]
- Advantage Actor Critic (A2C) [Publication1] [Publication2] [Code]
- Hochdimensionale kontinuierliche Kontrolle unter Verwendung einer generalisierten Vorteilsschätzung [Veröffentlichung] [Code]
- Proximale Richtlinienoptimierungsalgorithmen [Veröffentlichung] [Code]
Anforderungen:
- Python 3.6
- Numpy
- Fitnessstudio
- Pytorch 0.4.0
- Matplotlib
- Opencv
- Kassionen
Anerkennung:
- Gutschrift @Baselines für die Umweltverpackungen und Inspiration für den priorisierten Wiederholungscode, der nur im Entwicklungscode verwendet wird
- Gutschrift an @higgsfield für den Ploting -Code, den Epsilon -Annealing -Code und die Inspiration für die priorisierte Wiederholungsimplays im Ipython -Notebook
- Gutschrift @kaixHin für faktorisierte lineare Schichtimplementierung und die in Categorical-DQN.IPYNB gefundene Projektion_Distribution.
- Gutschrift an @ikoStrikov für A2C, GAE, PPO und Visdom Ploting Code Implementierungsreferenz