PPO PyTorch下载-PPO PPO PyTorch源代码下载

PPO PyTorch

Python

1.0.0

下载

ppo-pytorch

更新[2021年4月]：

合并离散算法
为连续的动作空间action_std添加了线性衰减；使培训在复杂环境中更稳定
为演员和评论家增加了不同的学习率
现在登录.csv文件，情节，时间段和奖励现在已登录
从日志文件绘制图形的utils
从验证的网络测试和制作GIF
PPO_colab.ipynb组合所有文件 /测试 /绘图图 /在Google colab上制作gifs的文件

在Google colab中打开`PPO_colab.ipynb`

介绍

该存储库提供了最小的Pytorch近端策略优化（PPO），并为OpenAI Gym环境提供了剪辑的目标。它主要用于加强学习PPO算法的初学者。它仍然可以用于复杂的环境，但可能需要一些高参数调整或代码更改。可以在此处找到PPO算法的简要解释，并且可以在此处找到实施最佳性能PPO的所有细节的详尽解释（所有这些都尚未在此存储库中实施）。

保持训练程序的简单：

它具有连续环境的输出动作分布（具有对角协方差矩阵的多变量正常）的恒定标准偏差，即它是一个超参数，而不是可训练的参数。但是，它是线性腐烂的。（Action_STD显着影响性能）
它使用简单的蒙特卡洛估计值来计算优势，而不是普遍的优势估计（请查看OpenAi旋转实现）。
这是一个单一的实现，即只有一个工人收集经验。该存储库的较旧叉之一已被修改为具有平行工人

用法

训练一个新网络：运行train.py
测试验证的网络：运行test.py
使用日志文件绘制图：运行plot_graph.py
为GIF保存图像并使用验证的网络制作GIF：运行make_gif.py
所有用于控制培训 /测试 /图形 / GIF的参数和超参数都在其各自的.py文件中
PPO_colab.ipynb结合了jupyter音符中的所有文件
所有用于培训（预审计）策略的超参数均在ppo_pretrated目录中的README.md中列出

笔记：

如果环境在CPU上运行，请使用CPU作为设备进行更快的培训。 Box-2D和Roboschool在CPU上运行并在GPU设备上训练它们的训练会大大降低，因为数据将经常在CPU和GPU之间移动

引用

如果您想在出版物中引用此存储库，请使用此Bibtex：

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}