RLエージェントがアタリをうまく動かしたいですか?
虹はあなたが必要とするすべてです!
これは、DQNからRainbowへの段階的なチュートリアルです。すべての章には、理論的背景とオブジェクト指向の実装の両方が含まれています。興味のあるトピックを選択して、学びましょう!スマートフォンでもColabを使用してすぐに実行できます。
あなたがそれをより良くするために何かを持っているなら、問題またはプル・レクストを自由に開くようにしてください。 :)
ポリシーグラデーションメソッドのチュートリアルが必要な場合は、PGだけが必要です。
コンテンツ
- dqn [nbviewer] [colab]
- doubledqn [nbviewer] [colab]
- 優先experiencereplay [nbviewer] [colab]
- duelingnet [nbviewer] [colab]
- noisynet [nbviewer] [colab]
- categoricaldqn [nbviewer] [colab]
- n-steplearning [nbviewer] [colab]
- レインボー[nbviewer] [colab]
前提条件
このリポジトリは、Python 3.8+でテストされています
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
実行方法
関連論文
- V. Mnih et al。、「深い強化学習による人間レベルの制御」。 Nature、518(7540):529–533、2015。
- Van Hasselt et al。、「ダブルQラーニングによる深い補強学習」。 Arxiv Preprint arxiv:1509.06461、2015。
- T. Schaul et al。、「優先順位付けされたエクスペリエンスリプレイ」。 Arxiv Preprint Arxiv:1511.05952、2015。
- Z. Wang et al。、「深い強化学習のための決闘ネットワークアーキテクチャ。」 Arxiv Preprint arxiv:1511.06581、2015。
- M. Fortunato et al。、「探検のための騒々しいネットワーク」。 arxiv preprint arxiv:1706.10295、2017。
- MG Bellemare et al。、「強化学習に関する分布視点」。 arxiv preprint arxiv:1707.06887、2017。
- RS Sutton、「時間的違いの方法によって予測することを学ぶ」。機械学習、3(1):9–44、1988。
- M. Hessel et al。、「Rainbow:深い強化学習の改善の組み合わせ」。 arxiv preprint arxiv:1710.02298、2017。
貢献者
これらの素晴らしい人々に感謝します(絵文字キー):
ジンウーパーク(カート)
| キュングワン・キム
| ウェイ・チェン ? | 王レイ ? | リーヤフ
| ahmadf
| ロベルト・シアボーネ
|
デビッド・ユーアン
| Dhanushka2001
|
このプロジェクトは、全委員会の仕様に従います。あらゆる種類の貢献を歓迎します!