action_std ; para tornar o treinamento mais estável para ambientes complexos.csvPPO_colab.ipynb combinando todos os arquivos para treinar / test / plot gráficos / fazer gifs no Google colab em um conveniente Jupyter-Notebook PPO_colab.ipynb no google colab Este repositório fornece uma implementação mínima de Pytorch da otimização de políticas proximais (PPO) com o objetivo cortado para ambientes de academia OpenAI. É destinado principalmente a iniciantes no aprendizado de reforço para entender o algoritmo PPO. Ele ainda pode ser usado para ambientes complexos, mas pode exigir alguns ajustes de hiperparâmetro ou alterações no código. Uma explicação concisa do algoritmo PPO pode ser encontrada aqui e uma explicação completa de todos os detalhes para implementar o melhor PPO com melhor desempenho pode ser encontrada aqui (todos ainda não foram implementados neste repositório).
Para manter o procedimento de treinamento simples:
train.pytest.pyplot_graph.pymake_gif.py.pyPPO_colab.ipynb combina todos os arquivos em um jupyter-notebookREADME.md no diretório PPO_PRESTRADE Por favor, use este Bibtex se você deseja citar este repositório em suas publicações:
@misc{pytorch_minimal_ppo,
author = {Barhate, Nikhil},
title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}
| PPO contínuo roboschoolhalfcheetah-v1 | PPO contínuo roboschoolhalfcheetah-v1 |
|---|---|
![]() | ![]() |
| PPO roboschoolhopper-v1 contínuo | PPO roboschoolhopper-v1 contínuo |
|---|---|
![]() | ![]() |
| PPO contínuo roboschoolwalker2d-v1 | PPO contínuo roboschoolwalker2d-v1 |
|---|---|
![]() | ![]() |
| PPO Bipedalwalker-V2 contínuo | PPO Bipedalwalker-V2 contínuo |
|---|---|
![]() | ![]() |
| PPO Cartpole-V1 discreto | PPO Cartpole-V1 discreto |
|---|---|
![]() | ![]() |
| PPO discreto lunarlander-v2 | PPO discreto lunarlander-v2 |
|---|---|
![]() | ![]() |
Treinado e testado em:
Python 3
PyTorch
NumPy
gym
Ambientes de treinamento
Box-2d
Roboschool
pybullet
Gráficos e GIFs
pandas
matplotlib
Pillow