PPO PyTorchダウンロードPPO PyTorchソースコードのダウンロード

PPO PyTorch

パイソン

1.0.0

ダウンロード

ppo-pytorch

更新[2021年4月]：

マージされた離散アルゴリズムと連続アルゴリズム
連続アクションスペースaction_stdに線形減衰が追加されました。複雑な環境のトレーニングをより安定させるため
俳優と批評家にさまざまな学習率を追加しました
エピソード、タイムステップ、報酬が.csvファイルに記録されるようになりました
ログファイルからグラフをプロットするための利用
テストして、前提条件のネットワークからGIFを作成します
PPO_colab.ipynbすべてのファイルを組み合わせて、グラフをトレーニング /テスト /プロットする / GoogleコラブでGIFをトレーニング /テスト /プロットします。

Google Colabで`PPO_colab.ipynb`を開きます

導入

このリポジトリは、OpenAIジム環境の目標が切り取られた近位政策最適化（PPO）の最小限のPytorch実装を提供します。これは主に、PPOアルゴリズムを理解するための補強学習の初心者向けです。複雑な環境には使用できますが、ハイパーパラメーター調整またはコードの変更が必要になる場合があります。 PPOアルゴリズムの簡潔な説明はここにあり、最高のパフォーマンスPPOを実装するためのすべての詳細の徹底的な説明がここにあります（すべてこのレポではすべて実装されていません）。

トレーニング手順を簡単に保つには：

連続環境の出力アクション分布（対角線共分散マトリックスを備えた多変量正常）に対して一定の標準偏差があります。つまり、トレーニング可能なパラメーターではなく、ハイパーパラメーターです。しかし、それは線形に崩壊します。（Action_Stdはパフォーマンスに大きく影響します）
これは、一般的なアドバンテージの見積もりを計算するために、単純なモンテカルロの見積もりを使用しています（そのためのOpenai Spinning Upの実装をチェックしてください）。
これは単一のスレッド実装であり、つまり、経験を収集するワーカーは1人だけです。このリポジトリの古いフォークの1つは、並行労働者を持つように変更されました

使用法

新しいネットワークをトレーニングするには：Run train.py
事前に処理されたネットワークをテストするには： test.pyを実行します
ログファイルを使用してグラフをプロットするには： plot_graph.pyを実行します
GIFの画像を保存し、事前に守られたネットワークを使用してGIFを作成するには：run make_gif.py
トレーニング /テスト /グラフ / GIFを制御するためのすべてのパラメーターとハイパーパランターがそれぞれ.pyファイルにあります
PPO_colab.ipynb 、jupyter-notebookのすべてのファイルを組み合わせています
トレーニングに使用されるすべてのハイパーパラメーター（前処理）ポリシーは、 PPO_PRETRETRAINEDディレクトリのREADME.mdにリストされています

注記：

環境がCPUで実行されている場合は、CPUをデバイスとして使用して、トレーニングを高速化します。 CPUで実行され、GPUデバイスでそれらをトレーニングするBox-2DとRoboschoolは、CPUとGPUの間で頻繁に移動するため、大幅に遅くなります

引用

出版物でこのリポジトリを引用したい場合は、このbibtexを使用してください。

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}