deeprl
質問がある場合、またはバグを報告したい場合は、直接メールで送信する代わりに問題を開きます。
Pytorchにおける一般的なDeepRLアルゴリズムのモジュール化された実装。
おもちゃのタスクと挑戦的なゲームの簡単な切り替え。
実装されたアルゴリズム:
- (ダブル/決闘/優先順位付け)ディープQラーニング(DQN)
- カテゴリーDQN(C51)
- 分位回帰DQN(QR-DQN)
- (連続/離散)同期アドバンテージ俳優批評家(A2C)
- 同期NステップQラーニング(N-STEP DQN)
- 深い決定論的ポリシーグラデーション(DDPG)
- 近位政策最適化(PPO)
- オプション - criticアーキテクチャ(OC)
- DDPGの遅延が伸びた(TD3)
- Off-PAC-KL/TRUNCATEDETD/DISMERIALGQ/MVPI/REVERSERL/COF-PAC/GRADINTDICE/BI-RES-DDPG/DAC/GEOFF-PAC/QUOTA/ACE
DQNエージェントとC51およびQR-DQNは、データ生成の非同期アクターとGPUにデータを転送するための非同期リプレイバッファーを備えています。 1 RTX 2080 TIおよび3スレッドを使用して、DQNエージェントは6時間以内にブレイクアウトのために10mステップ(40mフレーム、2.5mグラデーションの更新)で実行されます。
依存
- Pytorch v1.5.1
- 詳細については、
Dockerfile and requirements.txtを参照してください
使用法
examples.pyには、実装されたすべてのアルゴリズムの例が含まれています。
Dockerfileは、以下の曲線を生成するための環境が含まれています。
このレポを引用したい場合は、このbibtexを使用してください
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
曲線( 9e811eをコミット)
breakoutnoframeskip-v4(1 run)
ムホコ
参照
- 深い強化学習による人間のレベル制御
- 深い強化学習のための非同期方法
- ダブルQラーニングによる深い補強学習
- 深い強化学習のための決闘ネットワークアーキテクチャ
- 深い補強学習でAtariをプレイします
- Hogwild!:確率的勾配降下を並列化するためのロックフリーのアプローチ
- 決定論的ポリシーグラデーションアルゴリズム
- 深い補強学習を伴う継続的な制御
- 一般化アドバンテージ推定を使用した高次元連続制御
- 強化学習のためのハイブリッド報酬アーキテクチャ
- 信頼地域のポリシーの最適化
- 近位ポリシー最適化アルゴリズム
- 豊かな環境での移動行動の出現
- Atari Gamesでディープネットワークを使用したアクション条件のビデオ予測
- 強化学習に関する分布の視点
- 分位回帰による分布補強学習
- オプション - criticアーキテクチャ
- 俳優criticメソッドの関数近似誤差のアドレス指定
- 一部のハイパーパラメーターは、Deepmind Control Suite、Openai Baselines、Ilya Kostrikovからのものです
私の論文のコード
それらはこのレポの他のブランチにあり、このコードベースを使用するための良い例のようです。
- SoftMax Off-Policy Actor Criticの州の分布の不一致[Off-PAC-KL]のグローバルな最適性と有限サンプル分析
- 予測と制御のための切り捨てられた強調時間的差異法[TruncatedETD]
- 俳優批判アルゴリズムの不一致を割引することをより深く見る[割引]
- ターゲットネットワークで致命的なトライアドを破る[ターゲットネットワーク]
- 関数近似を使用した平均報酬オフポリシーポリシー評価[differyialgq]
- リスク回避補強学習のための平均分散ポリシー反復[MVPI]
- 逆補強学習による遡及的知識の学習[Reverserl]
- 関数近似[COF-PAC、TD3-RANDOM]を備えた収束2ティススケールオフポリティオフポリティオフポリティクリティック]
- GradientDice:定常値の一般化されたオフライン推定の再考[GradientDice]
- 深い残留補強学習[bi-res-ddpg]
- 一般化されたオフポリシー俳優批評家[Geoff-Pac、TD3-Random]
- DAC:学習オプションのための二重俳優criticアーキテクチャ[DAC]
- クォータ:補強学習のための分位オプションアーキテクチャ[クォータディスクレート、クォータコンタニュース]
- エース:ツリー検索で継続的な制御のための俳優アンサンブルアルゴリズム[エース]