Aprendizagem de reforço: teoria e implementação de Python
O primeiro livro de tutorial de aprendizado de reforço com o Tensorflow 2 e Pytorch 1 e 2 de Mapping One-One
| Edição em inglês | 中文版 | 中文 2019 版 |
|---|
| | |
Envie -me um email se estiver interessado em publicar este livro em outros idiomas.
Características
Este é um livro tutorial sobre aprendizado de reforço, com explicação da teoria e da implementação do Python.
- Teoria: A partir de uma estrutura matemática uniforme, este livro deriva a teoria e os algoritmos da aprendizagem de reforço, incluindo os algoritmos em uma grande era modelo, como PPO, RLHF, IRL e PBRL.
- Prática: Todo capítulo é acompanhado por implementação de alta qualidade com base em Python 3, Gym 0.26 e Tensorflow 2 / Pytorch 1 e 2. Todos os códigos são compatíveis com Windows, Linux e MacOS, podem ser executados em um laptop.
Suportando conteúdo para a versão em inglês
Verifique aqui os códigos, respostas de exercício, etc.
Verifique o SpringerLink Amazon para obter o conteúdo do livro.
Tabela de códigos
Todos os códigos foram salvos como um arquivo .ipynb e um arquivo .html no mesmo diretório.
| Capítulo | Ambiente e política de forma fechada | Agente |
|---|
| 2 | Cliffwalking-V0 | Pregoeiro público |
| 3 | Frozenlake-V1 | Dp |
| 4 | Blackjack-V1 | MC |
| 5 | Taxi V3 | SARSA, Esperou |
| 6 | Mountaincar-V0 | SARSA, SARSA (λ), DQN Tf Torch, DoubleDQn Tf Torch, Dueldqn Tf Torch |
| 7 | Cartpole-0 | VPG tf Torch, vpgwbaseline TF Torch, OffPolicyVpg Tf Torch, OffPolicyVpgwbaseline TF |
| 8 | Acrobot-V1 | Qac tf Torch, vantageAc tf tocha, elegibilidade trucina tf tch, ppo tf tocha, npg tf tocha, trpo tf tocha, offpac tf Torch |
| 9 | Pendulum-V1 | Ddpg tf tocha, td3 tf tocha |
| 10 | Lunarlander-V2 | Tocha sql tf, sac tf tocha, sacwa tf tocha |
| 10 | LunarLanderContinuous-V2 | Sacwa tf tocha |
| 11 | Bipedalwalker-v3 | Es, ars |
| 12 | Pongnoframeskip-v4 | Categoricaldqn tf Torch, qr-dqn tf Torch, iqn tf tocha |
| 13 | Bernoullimab-V0 | Ucb |
| 13 | GaussianMab-V0 | Ucb |
| 14 | Tictactoe-V0 | Alphazero tf tocha |
| 15 | Tiger-V0 | Vi |
| 16 | Humanoidbulletenv-V0 | Comportamentclone tf Torch, Gail Tf Torch |
强化学习 : 原理与 python 实战 (2023 中文版)
全球第一本配套 Tensorflow 2 和 Pytorch 1/2 对照代码的强化学习教程书
中文版书籍支持内容
本书内容
- 第一部分 (第 1 章) : : 从零开始介绍强化学习的背景知识 介绍环境库 介绍环境库 ginásio 的使用。
- 第二部分 (第 2 ~ 15 章) : : Markov 决策过程模型 , , 进而在理论的基础上讲解算法 , 并为算法提供配套代码实现。基础理论的讲解突出主干部分 , 算法讲解全面覆盖主流的强化学习算法 , 包括经典的非深度强化学习算法和近年流行的强化学习算法。 python 实现和算法讲解一一对应 , 还给出了深度强化学习算法的 tensorflow 和 pytorch 对照实现。
- 第三部分 (第 16 章) : : , 包括平均奖励模型、连续时间模型、非齐次模型、半 Markov 模型、部分可观测模型等 , 以便更好了解强化学习研究的全貌。
本书特色
本书完整地介绍了主流强化学习理论。
- 选用现代强化学习理论体系 , 突出主干 , 主要定理均给出证明过程。基于理论讲解强化学习算法 , 全面覆盖主流强化学习算法 , 包括了资格迹等经典算法和 muzero 等深度强化学习算法。
- 全书采用完整的数学体系 , 各章内容循序渐进。全书采用一致的数学符号 , 并兼容主流强化学习教程。
- 每章都配有知识点总结 , 并搭配习题。
本书各章均提供 Python 代码 , 实战性强。
- 简洁易懂: 全书代码统一规范、简约完备 , 与算法讲解直接对应。
- 查阅方便 : 所有代码及运行结果均在 github 上展示 , 既可以在浏览器上查阅 , , , 可单独查阅和运行。
- 环境全面 : 既有 academia 的内置环境 , 也有在 ginástica 基础上进一步扩展的第三方环境 , 还带领读者一起实现自定义的环境。
- 兼容性好 : 所有代码在三大操作系统 (Windows 、 macOS 、 Linux) 上均可运行 , 书中给出了环境的安装和配置方法。深度强化学习代码还提供了 Tensorflow 和 pytorch 对照代码。读者可任选其一。
- 硬件要求低 : 所有代码均可在没有 GPU 的个人计算机上运行。
强化学习 : 原理与 Python 实现 (2019)
全球第一本配套 Tensorflow 2 代码的强化学习教程书
中国第一本配套 Tensorflow 2 代码的纸质算法书
中文版书籍支持内容
本书特色
本书介绍强化学习理论及其 Python 实现。
- 理论完备 : 全书用一套完整的数学体系 , 严谨地讲授强化学习的理论基础 , 主要定理均给出证明过程。各章内容循序渐进 , 覆盖了所有主流强化学习算法 , 包括资格迹等非深度强化学习算法和柔性执行者/评论者等深度强化学习算法。
- : : 在您最爱的操作系统 (包括 Windows 、 MacOS 、 Linux) 上 , 基于 Python 3 、 Ginásio 0,26 和 Tensorflow 2 , 实现强化学习算法。全书实现统一规范 , 体积小、重量轻。第 1 ~ 9 章给出了算法的配套实现 , 环境部分只依赖于 ginástica 的最小安装 , 在没有 gpu 的计算机上也可运行;第 10 章介绍了多个热门综合案例 12 章介绍了多个热门综合案例 , 涵盖 的完整安装和自定义扩展 的最小安装 , , 在没有 GPU 的计算机上也可运行;第 12 章介绍了多个热门综合案例 , 涵盖 的完整安装和自定义扩展 的完整安装和自定义扩展 , , ,
Qq 群
- Qq 群: 722846914 (勘误报错可发此群 , 其他问题提问前请先 Google , 群主和管理员不提供免费咨询服务))
- 多任务群: 696984257 (非小白群 , 多任务强化学习+强化元学习+终身强化学习+迁移强化学习 , 勘误报错勿发此群 , 提问前请先 Google)
- 关于入群验证问题: 由于 qq 的 Bug , 即使正确输入答案 , 也可能会验证失败。这时更换设备重试、更换输入法重试、改日重试均可能解决问题。如果答案中有英文字母 , 清注意大小写。
- 中文版书前言中给出的 qq 群 (935702193、243613392 和 948110103) 已满 , 不再新增群成员 , 谢谢理解。