pytorch a2c ppo acktr gailダウンロード-PytorchA2C pytorch a2c ppo acktr gailソースコードダウンロード

pytorch a2c ppo acktr gail

パイソン

1.0.0

ダウンロード

pytorch-a2c-ppo-acktr

更新（2021年4月12日）

PPOは優れていますが、ソフト俳優評論家は多くの継続的な制御タスクに適しています。 JAXの新しいRLリポジトリをご覧ください。

このreadmeのハイパーパラメーターを使用してください。他のハイパーパラメーターでは、物事は機能しない可能性があります（結局のところRLです）！

これは、のPytorchの実装です

アドバンテージ俳優批評家（A2C）、A3cの同期決定論的バージョン
近位政策最適化PPO
Kronecker-Factored近似ACKTRを使用した深い補強学習のためのスケーラブルな信頼地域方法
生成的な敵対的な模倣学習ゲイル

詳細については、OpenAIの投稿：A2C/ACKTRおよびPPOも参照してください。

この実装は、A2C、ACKTR、PPOのOpenaiベースラインに触発されています。同じハイパーパラメーターとモデルを使用して、Atari Gamesに合わせて調整されていたためです。

出版物でこのリポジトリを引用したい場合は、このbibtexを使用してください。

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

サポート（およびテストされた）環境（Openaiジム経由）

アタリ学習環境
ムホコ
Pybullet（Racecar、Minitaur、Kukaを含む）
DeepMindコントロールスイート（DM_CONTROL2GYM経由）

Pybulletは、継続的な制御タスクのためにMujocoに代わる無料のオープンソースとして強くお勧めします。

すべての環境は、まったく同じジムインターフェイスを使用して操作されます。包括的なリストについては、ドキュメントを参照してください。

DeepMind Control Suite環境を使用するには、flag --env-name dm.<domain_name>.<task_name>を設定します。ここで、 domain_nameとtask_nameはドメインの名前（ hopperなど）とそのドメイン内のタスク（ stand ）のタスクです。利用可能なドメインとタスクの完全なリストについては、リポジトリと技術レポートを参照してください。タスクを設定する以外に、環境と対話するためのAPIは、DM_CONTROL2GYMのおかげですべてのジム環境とまったく同じです。

要件

Python 3（Python 2で動作する可能性がありますが、テストしませんでした）
Pytorch
安定したベースライン3

要件をインストールするために、次のことをフォローしてください。

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

貢献

貢献は大歓迎です。このコードを改善する方法がわかっている場合は、問題を開いてください。プルリクエストを送信する場合は、最初に問題を開きます。以下のTODOリストも参照してください。

また、AtariとMujocoですべての実験を実行するボランティアを探しています（複数のランダムシードを使用）。

免責事項

強化学習方法の結果を再現することは非常に困難です。詳細については、「重要な深い補強学習」を参照してください。 Openaiの結果をできるだけ密接に再現しようとしました。ただし、テンソルフローとPytorchライブラリのわずかな違いによっても、パフォーマンスの主要な違いが生じる可能性があります。

トト

このreadmeファイルを改善します。画像を再配置します。
KFACのパフォーマンスを改善してください。詳細については、kfac.pyを参照してください
すべてのゲームとアルゴリズムの評価を実行します

視覚化

結果を視覚化するには、 visualize.ipynbを使用してください。

トレーニング

アタリ

A2c

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

ACKTR

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

ムホコ

常に使用してください--use-proper-time-limitsフラグをお試しください。部分的な軌跡を適切に処理します（https://github.com/sfujim/td3/blob/master/main.py#l123を参照）。

A2c

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

ACKTR

ACKTRでは、Mujoco専用に変更する必要があります。しかし、現時点では、このコードを可能な限り統一しておきたいと思っています。したがって、私はそれをコードベースに統合するためのより良い方法を求めています。

楽しむ

アタリ

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

ムホコ

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

結果

A2c

breakoutnoframeskip-v4

seaquestnoframeskip-v4

qbertnoframeskip-v4

beamridernoframeskip-v4

PPO

breakoutnoframeskip-v4

seaquestnoframeskip-v4

qbertnoframeskip-v4

beamridernoframeskip-v4

ACKTR

breakoutnoframeskip-v4

seaquestnoframeskip-v4

qbertnoframeskip-v4

beamridernoframeskip-v4

拡大する

追加情報

バージョン 1.0.0
タイプパイソン
更新時間 2025-07-13
サイズ 8.52MB
から Github