PPO PyTorch
1.0.0
action_std添加了線性衰減;使培訓在復雜環境中更穩定.csv文件,情節,時間段和獎勵現在已登錄PPO_colab.ipynb組合所有文件 /測試 /繪圖圖 /在Google colab上製作gifs的文件PPO_colab.ipynb 該存儲庫提供了最小的Pytorch近端策略優化(PPO),並為OpenAI Gym環境提供了剪輯的目標。它主要用於加強學習PPO算法的初學者。它仍然可以用於復雜的環境,但可能需要一些高參數調整或代碼更改。可以在此處找到PPO算法的簡要解釋,並且可以在此處找到實施最佳性能PPO的所有細節的詳盡解釋(所有這些都尚未在此存儲庫中實施)。
保持訓練程序的簡單:
train.pytest.pyplot_graph.pymake_gif.py.py文件中PPO_colab.ipynb結合了jupyter音符中的所有文件README.md中列出如果您想在出版物中引用此存儲庫,請使用此Bibtex:
@misc{pytorch_minimal_ppo,
author = {Barhate, Nikhil},
title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}
| PPO連續的Roboschoolhalfcheetah-V1 | PPO連續的Roboschoolhalfcheetah-V1 |
|---|---|
![]() | ![]() |
| PPO連續roboschoolhopper-v1 | PPO連續roboschoolhopper-v1 |
|---|---|
![]() | ![]() |
| PPO連續roboschoolwalker2d-v1 | PPO連續roboschoolwalker2d-v1 |
|---|---|
![]() | ![]() |
| PPO連續BipedalWalker-V2 | PPO連續BipedalWalker-V2 |
|---|---|
![]() | ![]() |
| PPO離散Cartpole-V1 | PPO離散Cartpole-V1 |
|---|---|
![]() | ![]() |
| PPO離散Lunarlander-V2 | PPO離散Lunarlander-V2 |
|---|---|
![]() | ![]() |
經過培訓和測試:
Python 3
PyTorch
NumPy
gym
培訓環境
Box-2d
Roboschool
pybullet
圖和GIF
pandas
matplotlib
Pillow