Deeprl
Wenn Sie Fragen haben oder einen Fehler melden möchten, öffnen Sie bitte ein Problem, anstatt mir direkt per E -Mail zu senden.
Modularisierte Implementierung der beliebten tiefen RL -Algorithmen in Pytorch.
Einfacher Wechsel zwischen Spielzeugaufgaben und herausfordernden Spielen.
Implementierte Algorithmen:
- (Doppel/Duell/priorisiert) Deep Q-Learning (DQN)
- Kategoriale DQN (C51)
- Quantile Regression DQN (QR-DQN)
- (Kontinuierlicher/diskreter) Synchronvorteil -Akteurkritiker (A2C)
- Synchrones N-Step-Q-Learning (N-Schritt-DQN)
- Deep Deterministic Policy Gradient (DDPG)
- Proximale Politikoptimierung (PPO)
- Die Option-kritische Architektur (OC)
- TWINED DETTED DDPG (TD3)
- OFF-PAC-KL/Truncatedetd/DifferentialGQ/MVPI/Reverseserl/COF-PAC/Gradientdice/BI-RES-DDPG/DAC/GEOFF-PAC/Quota/Ace
Der DQN-Agent sowie C51 und QR-DQN verfügen über einen asynchronen Akteur für die Datenerzeugung und einen asynchronen Replay-Puffer zum Übertragen von Daten an GPU. Mit 1 RTX 2080 TI- und 3 -Threads wird der DQN -Agent innerhalb von 6 Stunden für Breakout für Breakout (40 m Frames, 2,5 m Gradienten -Updates) ausgeführt.
Abhängigkeit
- Pytorch v1.5.1
- Weitere Informationen finden Sie
Dockerfile und requirements.txt
Verwendung
examples.py enthält Beispiele für alle implementierten Algorithmen.
Dockerfile enthält die Umgebung zum Erstellen der folgenden Kurven.
Bitte verwenden Sie dieses Bibtex, wenn Sie dieses Repo zitieren möchten
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
Kurven (Commit 9e811e )
BreakoutnoFrameskip-V4 (1 Lauf)
Mujoco
DDPG/TD3 -Bewertungsleistung. (5 Läufe, Mittelwert + Standardfehler)
PPO Online -Leistung. (5 Läufe, Mittelwert + Standardfehler, geglättet durch ein Fenster der Größe 10)
Referenzen
- Kontrolle der menschlichen Ebene durch tiefes Verstärkungslernen
- Asynchrone Methoden zum tiefen Verstärkungslernen
- Tiefes Verstärkung Lernen mit doppeltem Q-Learning
- Duelling -Netzwerkarchitekturen für tiefes Verstärkungslernen
- Atari mit tiefem Verstärkungslernen spielen
- Hogwild!: Ein schlossfreier Ansatz zur parallelisierenden stochastischen Gradientenabstieg
- Deterministische politische Gradientenalgorithmen
- Kontinuierliche Kontrolle mit tiefem Verstärkungslernen
- Hochdimensionale kontinuierliche Kontrolle unter Verwendung einer generalisierten Vorteilsschätzung
- Hybrid -Belohnungsarchitektur für Verstärkungslernen
- Richtlinienoptimierung der Vertrauensregion
- Proximale Politikoptimierungsalgorithmen
- Entstehung von Fortbewegungsverhalten in reichen Umgebungen
- Aktionskonditionelle Videovorhersage mit tiefen Netzwerken in Atari-Spielen
- Eine Verteilungsperspektive auf das Verstärkungslernen
- Verteilungsverstärkung Lernen mit quantiler Regression
- Die Option-kritische Architektur
- Adressierungsfunktionsnäherungsfehler bei Akteur-kritischen Methoden
- Einige Hyperparameter stammen aus der DeepMind Control Suite, Openai Baselines und Ilya Kostrikov
Code meiner Papiere
Sie befinden sich in anderen Zweigen dieses Repo und scheinen gute Beispiele für die Verwendung dieser Codebasis zu sein.
- Globale Optimalität und endliche Stichprobenanalyse von Softmax-Off-Policy-Schauspielerkritiker unter staatlicher Verteilung Mismatch [Off-PAC-KL]
- Verkürzte nachdrückliche zeitliche Differenzmethoden für Vorhersage und Kontrolle [Truncatedetd]
- Ein tieferer Blick auf die Diskontierungsfehlanpassung in Schauspieler-kritischen Algorithmen [Discounter]
- Brechen der tödlichen Triade mit einem Zielnetzwerk [TargetNetwork]
- Durchschnittspolitik-Off-Policy-Richtlinienbewertung mit Funktionsnäherung [DifferentialGQ]
- Mittelvarianzpolitik Iteration für risikoaverse Verstärkungslernen [MVPI]
- Retrospektives Lernen mit reverse Verstärkungslernen [Reverserl]
- Nachweislich konvergierende zweifache Off-Policy-Schauspieler-Kritik mit Funktionsnäherung [COF-PAC, TD3-Random]
- Gradientdice: Verallgemeinerte Offline -Schätzung stationärer Werte überdenken [Gradientdice]
- Tiefes Restverstärkungslernen [BI-RES-DDPG]
- Verallgemeinerte außerwehrliche Schauspieler-Kritik [Geoff-Pac, TD3-Random]
- DAC: Die doppelte Schauspieler-kritische Architektur für Lernoptionen [DAC]
- Quote: Die Quantiloption-Architektur für Verstärkungslernen [Quota-Discrete, Quota-kontinuierliche]
- ACE: Ein Schauspieler -Ensemble -Algorithmus für die kontinuierliche Kontrolle mit Baumsuche [ACE]