您是否希望RL代理很好地搬進Atari?
彩虹就是您所需要的!
這是從DQN到彩虹的逐步教程。每一章都包含理論背景和麵向對象的實現。只需選擇您感興趣的任何主題,然後學習!即使在智能手機上,您也可以立即使用Colab執行它們。
如果您有任何想法使它變得更好,請隨時打開問題或抽籤。 :)
如果您想要有關策略梯度方法的教程,請參閱PG就是您所需要的。
內容
- DQN [NBViewer] [COLAB]
- DoubleDQN [NBViewer] [COLAB]
- PrioritizedExperienceReplay [NBViewer] [COLAB]
- duelingnet [nbviewer] [colab]
- noisynet [nbviewer] [colab]
- 分類DQN [NBViewer] [COLAB]
- n- steplearning [nbviewer] [colab]
- 彩虹[NBViewer] [COLAB]
先決條件
該存儲庫用Python 3.8+測試
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
如何運行
相關論文
- V. Mnih等人,“通過深厚的增強學習來控制人類水平的控制”。 Nature,518(7540):529–533,2015。
- Van Hasselt等人,“雙重Q學習的深度加固學習”。 Arxiv預印型ARXIV:1509.06461,2015。
- T. Schaul等人,“優先的經驗重播”。 Arxiv預印型ARXIV:1511.05952,2015。
- Z. Wang等人,“用於深入強化學習的決鬥網絡架構”。 Arxiv預印型ARXIV:1511.06581,2015。
- M. Fortunato等人,“探索嘈雜的網絡”。 ARXIV預印型ARXIV:1706.10295,2017。
- MG Bellemare等人,“關於強化學習的分佈觀點”。 Arxiv預印型ARXIV:1707.06887,2017。
- RS Sutton,“學習通過時間差異的方法進行預測”。機器學習,3(1):9-44,1988。
- M. Hessel等人,“ Rainbow:結合了深度強化學習的改進”。 ARXIV預印型ARXIV:1710.02298,2017。
貢獻者
謝謝這些好人(表情符號鑰匙):
金沃公園(Curt)
| Kyunghwan Kim
| Wei Chen ? | 王雷 ? | Leeyaf
| 艾哈邁德
| 羅伯托·席森(Roberto Schiavone)
|
大衛元
| Dhanushka2001
|
該項目遵循全企業規範。歡迎任何形式的貢獻!