Grokking深入强化学习
注意:目前,仅支持从Docker容器(下)运行代码。 Docker允许创建一个更有可能在所有系统上工作的环境。基本上,除Docker本身外,我为您安装和配置所有软件包,而您只需在经过测试的环境上运行代码即可。
要安装Docker,我建议您进行网络搜索“在此处<您的OS上安装Docker”。要在GPU上运行代码,您必须另外安装Nvidia-Docker。 Nvidia Docker允许在Docker容器中使用主机的GPU。安装了Docker(和Nvidia-Docker)后,请按照以下三个步骤进行操作。
运行代码
- 克隆这个仓库:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - 用以下方式拉动GDRL图像
docker pull mimoralea/gdrl:v0.14 - 旋转容器:
- 在Mac或Linux上:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - 在Windows上:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - 注意:如果您使用的是GPU,则将
nvidia-docker或add --gpus all用于--rm 。
- 打开浏览器,然后转到终端中显示的URL(可能是:http:// localhost:8888)。密码是:
gdrl
关于这本书
书的网站
https://www.manning.com/books/grokking-deep-reinforcement-learning
内容表
- 深度加强学习简介
- 增强学习的数学基础
- 平衡立即和长期目标
- 平衡信息的收集和利用
- 评估代理商的行为
- 改善代理商的行为
- 更有效,有效地实现目标
- 基于价值的深入强化学习简介
- 更稳定的基于价值的方法
- 基于样本有效值的方法
- 政策梯度和演员批判性方法
- 高级参与者 - 批评方法
- 迈向人工通用情报
详细的内容表
1。深入增强学习简介
2。强化学习的数学基础
- (Livebook)
- (笔记本)
- 实施几个MDP:
- 强盗步行
- 强盗滑水
- 湿滑的步行三
- 随机步行
- 拉塞尔和诺维格的网格世界来自AIMA
- 冷冻
- FrozenLake8x8
3。平衡立即和长期目标
4。平衡信息的聚会和利用
- (Livebook)
- (笔记本)
- 实施匪徒问题的勘探策略:
- 随机的
- 贪婪的
- 电子怪癖
- 电子绿色和线性衰减的epsilon
- 电子怪癖,呈指数衰减的Epsilon
- 乐观的初始化
- SoftMax
- 上限限制
- 贝叶斯
5。评估代理商的行为
- (Livebook)
- (笔记本)
- 实施解决预测问题的算法(策略估算):
- 上一次访问的蒙特卡洛预测
- 每次访问的蒙特卡洛预测
- 时间差异预测(TD)
- N步长差异预测(N-Step TD)
- TD(λ)
6。改善代理商的行为
- (Livebook)
- (笔记本)
- 实施解决控制问题的算法(策略改进):
- 上一次访问的蒙特卡洛控制
- 每次访问的蒙特卡洛控制
- policy TD控制:SARSA
- 非政策TD控制:Q学习
- 双Q学习
7。更有效,有效地实现目标
- (Livebook)
- (笔记本)
- 实施更有效,更有效的增强学习算法:
- SARSA(λ)用替换轨迹
- SARSA(λ)带有累积痕迹
- Q(λ)用替换轨迹
- Q(λ)带有累积迹线
- Dyna-Q
- 轨迹采样
8。基于价值的深入增强学习简介
9。基于价值的更稳定的方法
- (Livebook)
- (笔记本)
- 实施“经典”基于价值的深钢筋学习方法:
- 深Q-Networks(DQN)
- 双重Q-NETWORKS(DDQN)
10。基于样本有效的基于价值的方法
- (Livebook)
- (笔记本)
- 实施基于价值的深入强化学习方法的主要改进:
- Dueling Deep Q-Networks(Dueling DQN)
- 优先经验重播(PER)
11。政策授权和演员批评方法
- (Livebook)
- (笔记本)
- 实施经典的基于政策和参与者 - 批判性的深入强化学习方法:
- 没有价值功能和蒙特卡洛回报的政策梯度(增强)
- 具有蒙特卡洛回报训练的价值功能基线的政策梯度(VPG)
- 异步优势演员 - 批评(A3C)
- 广义优势估计(GAE)
- [同步]优势演员 - 批评(A2C)
12。高级演员批评方法
- (Livebook)
- (笔记本)
- 实施高级参与者 - 批评方法:
- 深层确定性政策梯度(DDPG)
- 双重延迟的深层确定性政策梯度(TD3)
- 软演员批评(SAC)
- 近端策略优化(PPO)
13。迈向人工通用情报