Deeprl
如果您有任何疑問或想報告錯誤,請打開問題,而不是直接給我發送電子郵件。
Pytorch中流行的深度RL算法的模塊化實現。
在玩具任務和具有挑戰性的遊戲之間輕鬆切換。
實施算法:
- (雙/決鬥/優先)深Q學習(DQN)
- 分類DQN(C51)
- 分位數回歸DQN(QR-DQN)
- (連續/離散)同步優勢演員評論家(A2C)
- 同步n-Step Q學習(N-Step DQN)
- 深層確定性政策梯度(DDPG)
- 近端策略優化(PPO)
- 選項批判性體系結構(OC)
- 暗延遲DDPG(TD3)
- off-kl/truncatedetd/dixialgq/mvpi/reverserl/cof-pac/gradientdice/bi-res-ddpg/dac/dac/geoff-pac/quota/ace
DQN代理以及C51和QR-DQN具有一個異步參與者用於數據生成的異步演奏者,並且可以將數據傳輸到GPU的異步重播緩衝液。使用1 RTX 2080 TI和3個線程,DQN代理在6小時內以10m步長(40m幀,2.5m梯度更新)運行。
依賴性
- Pytorch v1.5.1
- 有關
Dockerfile詳細requirements.txt
用法
examples.py包含所有已實施算法的示例。
Dockerfile包含用於生成以下曲線的環境。
如果您想引用此倉庫,請使用此bibtex
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
曲線(提交9e811e )
Breakoutnoframeskip-V4(1運行)
mujoco
參考
- 通過深厚的增強學習的人類水平控制
- 深入增強學習的異步方法
- 通過雙Q學習深度加強學習
- 針對深度強化學習的決鬥網絡體系結構
- 通過深入的增強學習播放atari
- Hogwild! :一種無鎖的方法,可以並行化隨機梯度下降
- 確定性政策梯度算法
- 通過深度加強學習的持續控制
- 使用廣義優勢估計的高維連續控制
- 加強學習的混合獎勵體系結構
- 信任區域政策優化
- 近端策略優化算法
- 在豐富環境中的運動行為的出現
- 使用Atari遊戲中深網的動作條件視頻預測
- 關於加固學習的分配觀點
- 分數回歸的分配加固學習
- 選項批判性架構
- 解決函數近似誤差
- 一些超參數來自DeepMind Control Suite,OpenAI基線和ILYA Kostrikov
我的論文代碼
它們位於此存儲庫的其他分支中,似乎是使用此代碼庫的好示例。
- 在國家分佈不匹配下的軟性瑪克斯外演員評論家的全球最優性和有限樣本分析[OFF-PAC-KL]
- 預測和控制的截短強調時間差異方法[TruncatedEtd]
- 更深入地看一下Actor-Critic算法中的不匹配[折扣]
- 用目標網絡打破致命的三合會[TargetNetwork]
- 通過功能近似[dindialialGQ]的平均獎勵範圍策略評估
- 用於規避風險的強化學習[MVPI]的均值變化政策迭代
- 通過反向強化學習學習回顧性知識[反向驗]
- 可證明的兩次限制的兩次尺度級別的近似近似[COF-PAC,TD3隨機]
- 梯度:重新思考固定值的廣義離線估計[漸變]
- 深層剩餘的增強學習[BI-RES-DDPG]
- 廣義的非政策演員 - 批評[Geoff-Pac,TD3隨機]
- DAC:學習選項的雙演員批評體系結構[DAC]
- 配額:用於加固學習的分位數選項體系結構[配額 - 污點,配額連續]
- ACE:演員合奏算法,用於連續控制的consearch [ace]