action_std hinzugefügt; Um das Training für komplexe Umgebungen stabiler zu machen.csv -Dateien angemeldetPPO_colab.ipynb kombiniert alle Dateien zum Training / Testen / Diagramm-Diagramm PPO_colab.ipynb in Google Colab Dieses Repository bietet eine minimale Pytorch -Implementierung der proximalen Richtlinienoptimierung (PPO) mit abgeschnittenem Ziel für OpenAI -Fitnessumgebungen. Es ist hauptsächlich für Anfänger im Verstärkungslernen für das Verständnis des PPO -Algorithmus gedacht. Es kann weiterhin für komplexe Umgebungen verwendet werden, erfordert jedoch möglicherweise einige Hyperparameterabstimmungen oder Änderungen im Code. Eine kurze Erklärung des PPO -Algorithmus finden Sie hier und eine gründliche Erklärung aller Details zur Implementierung der am besten darstellenden PPO finden Sie hier (alle sind in diesem Repo noch nicht implementiert).
Um das Schulungsverfahren einfach zu halten:
train.pytest.py ausführenplot_graph.py ausmake_gif.py.py -DateiPPO_colab.ipynb kombiniert alle Dateien in einem Jupyter-NotebookREADME.md im Verzeichnis ppo_Pretrained aufgeführt Bitte verwenden Sie dieses Bibtex, wenn Sie dieses Repository in Ihren Veröffentlichungen zitieren möchten:
@misc{pytorch_minimal_ppo,
author = {Barhate, Nikhil},
title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}
| PPO kontinuierliche RoboSchoolhalfheetah-V1 | PPO kontinuierliche RoboSchoolhalfheetah-V1 |
|---|---|
![]() | ![]() |
| PPO kontinuierliche RoboSchoolhopper-V1 | PPO kontinuierliche RoboSchoolhopper-V1 |
|---|---|
![]() | ![]() |
| PPO kontinuierliche RoboSchoolwalker2D-V1 | PPO kontinuierliche RoboSchoolwalker2D-V1 |
|---|---|
![]() | ![]() |
| PPO Continuous bipedalwalker-v2 | PPO Continuous bipedalwalker-v2 |
|---|---|
![]() | ![]() |
| PPO Discrete Cartpole-V1 | PPO Discrete Cartpole-V1 |
|---|---|
![]() | ![]() |
| PPO diskrete Mondländer-V2 | PPO diskrete Mondländer-V2 |
|---|---|
![]() | ![]() |
Trainiert und getestet auf:
Python 3
PyTorch
NumPy
gym
Trainingsumgebungen
Box-2d
Roboschool
pybullet
Diagramme und GIFs
pandas
matplotlib
Pillow