action_std ; Para hacer que el entrenamiento sea más estable para entornos complejos.csvPPO_colab.ipynb Combinando todos los archivos para entrenar / probar / trazar gráficos / hacer gifs en Google Colab en un conveniente Jupyter-Notebook PPO_colab.ipynb en Google Colab Este repositorio proporciona una implementación mínima de Pytorch de la optimización de políticas proximales (PPO) con el objetivo recortado para entornos de gimnasio OpenAI. Está destinado principalmente a principiantes en el aprendizaje de refuerzo para comprender el algoritmo PPO. Todavía se puede usar para entornos complejos, pero puede requerir algunos ajustes o cambios de hiperparameter en el código. Aquí se puede encontrar una explicación concisa del algoritmo PPO y una explicación exhaustiva de todos los detalles para implementar el PPO de mejor rendimiento se puede encontrar aquí (todos aún no se implementan en este repositorio).
Para mantener el procedimiento de capacitación simple:
train.pytest.pyplot_graph.pymake_gif.py.py respectivoPPO_colab.ipynb Combina todos los archivos en un Notebook JupyterREADME.md en el directorio PPO_PreTiened Utilice este bibtex si desea citar este repositorio en sus publicaciones:
@misc{pytorch_minimal_ppo,
author = {Barhate, Nikhil},
title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}
| PPO Continuo RoboschoolhalfCheetah-V1 | PPO Continuo RoboschoolhalfCheetah-V1 |
|---|---|
![]() | ![]() |
| PPO Roboschoolhopper-V1 | PPO Roboschoolhopper-V1 |
|---|---|
![]() | ![]() |
| PPO Continuo Roboschoolwalker2d-V1 | PPO Continuo Roboschoolwalker2d-V1 |
|---|---|
![]() | ![]() |
| PPO Bipedalwalker-V2 | PPO Bipedalwalker-V2 |
|---|---|
![]() | ![]() |
| PPO Cartpole-V1 | PPO Cartpole-V1 |
|---|---|
![]() | ![]() |
| PPO DISCRETO LUNARLANDER-V2 | PPO DISCRETO LUNARLANDER-V2 |
|---|---|
![]() | ![]() |
Entrenado y probado en:
Python 3
PyTorch
NumPy
gym
Entornos de capacitación
Box-2d
Roboschool
pybullet
Gráficos y gifs
pandas
matplotlib
Pillow