deeprl-tutorials
これらのIPythonノートブックの意図は、主に私が読んだ論文を練習し、理解するのを助けることです。したがって、場合によっては効率性よりも読みやすさを選択します。最初に実装がアップロードされ、その後マークアップが続き、コードの各部分を説明します。このREADMEの謝辞セクションで借用されているコードのクレジットを割り当てます。
関連する論文:
- 深い強化学習による人間のレベル制御[出版物] [コード]
- マルチステップ学習(補強学習から:はじめに、第7章)[出版物] [コード]
- ダブルQラーニングによる深い補強学習[出版物] [コード]
- 深い強化学習のための決闘ネットワークアーキテクチャ[出版物] [コード]
- 探索のためのノイジーネットワーク[出版物] [コード]
- 優先順位付けされたエクスペリエンスリプレイ[出版物] [コード]
- 強化学習に関する分布の視点[出版物] [コード]
- レインボー:深い強化学習の改善を組み合わせた[出版] [コード]
- 分位回帰による分布補強学習[出版物] [コード]
- 分位回帰を備えた虹[コード]
- 部分的に観察可能なMDPのための深い再発Qラーニング[出版物] [コード]
- アドバンテージ俳優批評家(A2C)[出版1] [出版2] [コード]
- 一般化アドバンテージ推定を使用した高次元の連続制御[出版物] [コード]
- 近位ポリシー最適化アルゴリズム[出版物] [コード]
要件:
- Python 3.6
- numpy
- ジム
- Pytorch 0.4.0
- matplotlib
- opencv
- Baslines
謝辞:
- 環境ラッパーの@BaseLinesのクレジットと、開発コードでのみ使用される優先順位付けされたリプレイコードのインスピレーション
- プロットコード、イプシロンアニーリングコード、およびIPythonノートブックの優先順位付けされたリプレイ実装のインスピレーションについて@higgsfieldにクレジット
- 要因化された騒々しい線形層の実装とcategorical-dqn.ipynbにあるprojection_distribution関数についての@kaixhinのクレジット
- A2C、GAE、PPO、およびVISDOMプロットコード実装リファレンスの@IKOSTRIKOVのクレジット