Deeprl
如果您有任何疑问或想报告错误,请打开问题,而不是直接给我发送电子邮件。
Pytorch中流行的深度RL算法的模块化实现。
在玩具任务和具有挑战性的游戏之间轻松切换。
实施算法:
- (双/决斗/优先)深Q学习(DQN)
- 分类DQN(C51)
- 分位数回归DQN(QR-DQN)
- (连续/离散)同步优势演员评论家(A2C)
- 同步n-Step Q学习(N-Step DQN)
- 深层确定性政策梯度(DDPG)
- 近端策略优化(PPO)
- 选项批判性体系结构(OC)
- 暗延迟DDPG(TD3)
- off-kl/truncatedetd/dixialgq/mvpi/reverserl/cof-pac/gradientdice/bi-res-ddpg/dac/dac/geoff-pac/quota/ace
DQN代理以及C51和QR-DQN具有一个异步参与者用于数据生成的异步演奏者,并且可以将数据传输到GPU的异步重播缓冲液。使用1 RTX 2080 TI和3个线程,DQN代理在6小时内以10m步长(40m帧,2.5m梯度更新)运行。
依赖性
- Pytorch v1.5.1
- 有关
Dockerfile详细requirements.txt
用法
examples.py包含所有已实施算法的示例。
Dockerfile包含用于生成以下曲线的环境。
如果您想引用此仓库,请使用此bibtex
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
曲线(提交9e811e )
Breakoutnoframeskip-V4(1运行)
mujoco
参考
- 通过深厚的增强学习的人类水平控制
- 深入增强学习的异步方法
- 通过双Q学习深度加强学习
- 针对深度强化学习的决斗网络体系结构
- 通过深入的增强学习播放atari
- Hogwild!:一种无锁的方法,可以并行化随机梯度下降
- 确定性政策梯度算法
- 通过深度加强学习的持续控制
- 使用广义优势估计的高维连续控制
- 加强学习的混合奖励体系结构
- 信任区域政策优化
- 近端策略优化算法
- 在丰富环境中的运动行为的出现
- 使用Atari游戏中深网的动作条件视频预测
- 关于加固学习的分配观点
- 分数回归的分配加固学习
- 选项批判性架构
- 解决函数近似误差
- 一些超参数来自DeepMind Control Suite,OpenAI基线和ILYA Kostrikov
我的论文代码
它们位于此存储库的其他分支中,似乎是使用此代码库的好示例。
- 在国家分布不匹配下的软性玛克斯外演员评论家的全球最优性和有限样本分析[OFF-PAC-KL]
- 预测和控制的截短强调时间差异方法[TruncatedEtd]
- 更深入地看一下Actor-Critic算法中的不匹配[折扣]
- 用目标网络打破致命的三合会[TargetNetwork]
- 通过功能近似[dindialialGQ]的平均奖励范围策略评估
- 用于规避风险的强化学习[MVPI]的均值变化政策迭代
- 通过反向强化学习学习回顾性知识[反向验]
- 可证明的两次限制的两次尺度级别的近似近似[COF-PAC,TD3随机]
- 梯度:重新思考固定值的广义离线估计[渐变]
- 深层剩余的增强学习[BI-RES-DDPG]
- 广义的非政策演员 - 批评[Geoff-Pac,TD3随机]
- DAC:学习选项的双演员批评体系结构[DAC]
- 配额:用于加固学习的分位数选项体系结构[配额 - 污点,配额连续]
- ACE:演员合奏算法,用于连续控制的consearch [ace]