action_std ; Pour rendre la formation plus stable pour des environnements complexes.csvPPO_colab.ipynb combinant tous les fichiers pour former / tester / tracer des graphiques / faire des GIF sur Google Colab dans un livre de note de jupyter pratique PPO_colab.ipynb dans Google Colab Ce référentiel fournit une implémentation pytorch minimale de l'optimisation de la politique proximale (PPO) avec un objectif coupé pour les environnements de gymnase Openai. Il est principalement destiné aux débutants dans l'apprentissage du renforcement pour comprendre l'algorithme PPO. Il peut toujours être utilisé pour des environnements complexes, mais peut nécessiter un réglage d'hyperparamètre ou des modifications du code. Une explication concise de l'algorithme PPO peut être trouvée ici et une explication approfondie de tous les détails pour la mise en œuvre de PPO la plus performante peut être trouvée ici (toutes ne sont pas encore mises en œuvre dans ce référentiel).
Pour garder la procédure de formation simple:
train.pytest.pyplot_graph.pymake_gif.py.py respectifPPO_colab.ipynb combine tous les fichiers dans un note-note de JupyterREADME.md dans PPO_PORAIN Veuillez utiliser ce bibtex si vous souhaitez citer ce référentiel dans vos publications:
@misc{pytorch_minimal_ppo,
author = {Barhate, Nikhil},
title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}
| PPO Roboschoolhalfcheetah-V1 continu | PPO Roboschoolhalfcheetah-V1 continu |
|---|---|
![]() | ![]() |
| PPO Roboschoolhopper-V1 continu | PPO Roboschoolhopper-V1 continu |
|---|---|
![]() | ![]() |
| PPO ROBOSCHOOLWALKERKER2D-V1 | PPO ROBOSCHOOLWALKERKER2D-V1 |
|---|---|
![]() | ![]() |
| PPO Bipedalwalker-V2 continu | PPO Bipedalwalker-V2 continu |
|---|---|
![]() | ![]() |
| PPO Cartpole-V1 discret | PPO Cartpole-V1 discret |
|---|---|
![]() | ![]() |
| PPO Lunarlander-V2 discret | PPO Lunarlander-V2 discret |
|---|---|
![]() | ![]() |
Formé et testé sur:
Python 3
PyTorch
NumPy
gym
Environnements de formation
Box-2d
Roboschool
pybullet
Graphiques et gifs
pandas
matplotlib
Pillow