PPO PyTorch Download - PPO PyTorch Quellcode Download

PPO PyTorch

Python

1.0.0

Herunterladen

PPO-Pytorch

Update [April 2021]:

fusionierte diskrete und kontinuierliche Algorithmen
Linearer Verfall für den kontinuierlichen Aktionsraum action_std hinzugefügt; Um das Training für komplexe Umgebungen stabiler zu machen
verschiedene Lernraten für Schauspieler und Kritiker hinzugefügt
Episoden, Zeitschritte und Belohnungen werden jetzt in .csv -Dateien angemeldet
Utils, Diagramme aus Protokolldateien zu zeichnen
Utils zu testen und GIFs aus vorbereiteten Netzwerken herzustellen
PPO_colab.ipynb kombiniert alle Dateien zum Training / Testen / Diagramm-Diagramm

Öffnen Sie `PPO_colab.ipynb` in Google Colab

Einführung

Dieses Repository bietet eine minimale Pytorch -Implementierung der proximalen Richtlinienoptimierung (PPO) mit abgeschnittenem Ziel für OpenAI -Fitnessumgebungen. Es ist hauptsächlich für Anfänger im Verstärkungslernen für das Verständnis des PPO -Algorithmus gedacht. Es kann weiterhin für komplexe Umgebungen verwendet werden, erfordert jedoch möglicherweise einige Hyperparameterabstimmungen oder Änderungen im Code. Eine kurze Erklärung des PPO -Algorithmus finden Sie hier und eine gründliche Erklärung aller Details zur Implementierung der am besten darstellenden PPO finden Sie hier (alle sind in diesem Repo noch nicht implementiert).

Um das Schulungsverfahren einfach zu halten:

Es hat eine konstante Standardabweichung für die Ausgangsaktionsverteilung ( multivariate normal mit diagonaler Kovarianzmatrix ) für die kontinuierlichen Umgebungen, dh es ist ein Hyperparameter und kein trainierbarer Parameter. Es ist jedoch linear verfallen . (Action_std wirkt sich erheblich auf die Leistung aus)
Es verwendet eine einfache Monte-Carlo-Schätzung zur Berechnung der Vorteile und nicht zur Verallgemeinerungsvorteilschätzung (siehe die OpenAI-Spinning-Implementierung dafür).
Es handelt sich um eine einzelne Thread -Implementierung , dh nur ein Arbeiter sammelt Erfahrung. Eine der älteren Gabeln dieses Repositorys wurde geändert, um parallele Arbeiter zu haben

Verwendung

Um ein neues Netzwerk zu trainieren: Run train.py
Um ein vorgezogenes Netzwerk zu testen: test.py ausführen
Um Diagramme mit Protokolldateien zu zeichnen: Führen Sie plot_graph.py aus
So make_gif.py
Alle Parameter und Hyperparamter zur Steuerung des Trainings / Tests / Diagramme / GIFs befinden sich in ihrer jeweiligen .py -Datei
PPO_colab.ipynb kombiniert alle Dateien in einem Jupyter-Notebook
Alle für das Training verwendeten Hyperparameter (vorgefertigte) Richtlinien sind im README.md im Verzeichnis ppo_Pretrained aufgeführt

Notiz :

Wenn die Umgebung auf der CPU ausgeführt wird, verwenden Sie CPU als Gerät für schnelleres Training. Box-2D und RoboSchool laufen auf der CPU und trainieren sie auf GPU-Gerät erheblich langsamer, da die Daten häufig zwischen CPU und GPU verschoben werden

Zitieren

Bitte verwenden Sie dieses Bibtex, wenn Sie dieses Repository in Ihren Veröffentlichungen zitieren möchten:

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}