action_std ; Чтобы сделать обучение более стабильным для сложных средств.csvPPO_colab.ipynb Сочетание всех файлов для обучения / тестирования / сюжетных графиков / создавать GIF-файлы в Google Colab в удобном Jupyter-Notebook PPO_colab.ipynb в Google colab Этот репозиторий обеспечивает минимальную реализацию Pytorch оптимизации проксимальной политики (PPO) с обрезанной целью для спортивных средств OpenAI. Он предназначен в первую очередь для начинающих в обучении подкреплению для понимания алгоритма ППО. Его все еще можно использовать для сложных сред, но может потребовать некоторую гиперпараметровую настройку или изменения в коде. Краткое объяснение алгоритма PPO можно найти здесь, и здесь можно найти тщательное объяснение всех деталей для реализации наиболее эффективного PPO (все еще не реализованы в этом репо).
Чтобы поддерживать процедуру обучения простой:
train.pytest.pyplot_graph.pymake_gif.py.pyPPO_colab.ipynb объединяет все файлы в jupyter-notebookREADME.md в каталоге PPO_PRETRINED Пожалуйста, используйте этот Bibtex, если вы хотите привести этот репозиторий в своих публикациях:
@misc{pytorch_minimal_ppo,
author = {Barhate, Nikhil},
title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}
| PPO непрерывный roboschoolhalfcheetah-V1 | PPO непрерывный roboschoolhalfcheetah-V1 |
|---|---|
![]() | ![]() |
| PPO непрерывный Roboschoolhopper-V1 | PPO непрерывный Roboschoolhopper-V1 |
|---|---|
![]() | ![]() |
| PPO непрерывный roboschoolwalker2d-V1 | PPO непрерывный roboschoolwalker2d-V1 |
|---|---|
![]() | ![]() |
| PPO непрерывный Bipedalwalker-V2 | PPO непрерывный Bipedalwalker-V2 |
|---|---|
![]() | ![]() |
| PPO дискретный Cartpole-V1 | PPO дискретный Cartpole-V1 |
|---|---|
![]() | ![]() |
| PPO Discrete Lunarlander-V2 | PPO Discrete Lunarlander-V2 |
|---|---|
![]() | ![]() |
Обучен и протестирован на:
Python 3
PyTorch
NumPy
gym
Учебная среда
Box-2d
Roboschool
pybullet
Графики и гифки
pandas
matplotlib
Pillow