Подкрепление обучения: теория и внедрение Python
Первая учебная книга по обучению подкреплением с индивидуальной реализацией индивидуальной карты Tensorflow 2 и Pytorch 1 & 2
| Английское издание | 中文版 | 中文 2019 版 |
|---|
| | |
Пожалуйста, напишите мне, если вы заинтересованы в публикации этой книги на других языках.
Функции
Это учебная книга по обучению подкрепления, с объяснением теории и реализации Python.
- Теория: Начиная с единой математической структуры, эта книга получает теорию и алгоритмы обучения подкрепления, включая алгоритмы в большую модельную эпоху, такие как PPO, RLHF, IRL и PBRL.
- Практика: каждая глава сопровождается высококачественной реализацией на основе Python 3, Gym 0.26 и Tensorflow 2 / Pytorch 1 и 2. Все коды совместимы с Windows, Linux и MacOS, могут быть запущены в ноутбуке.
Поддерживающее содержимое для английской версии
Проверьте здесь коды, ответы на упражнения и т. Д.
Проверьте Springerlink Amazon для книжного содержимого.
Таблица кодов
Все коды были сохранены в виде файла .ipynb и файла .html в одном каталоге.
| Глава | Политика окружающей среды и закрытой формы | Агент |
|---|
| 2 | Cliffwalking-V0 | Беллман |
| 3 | Frozenlake-V1 | Дп |
| 4 | Блэкджек-V1 | МС |
| 5 | Такси-V3 | Sarsa, Weadssarsa, QL, DoubleQl, Sarsa (λ) |
| 6 | Mountaincar-V0 | Sarsa, Sarsa (λ), DQN Tf Torch, Doubledqn tf Torch, Dueldqn tf torch |
| 7 | Cartpole-0 | VPG TF TORCH, VPGWBASELIN |
| 8 | Acrobot-V1 | QAC TF TORCH, AdvantageAc TF TORCH, ELIGIBUTYTRACEAC TF TORCH, PPO TF TORCH, NPG TF TORCH, TRPO TF TORCH, OFFPAC TF TORCH |
| 9 | Маятник-V1 | DDPG TF TORCH, TD3 TF TORCH |
| 10 | Lunarlander-V2 | SQL TF Torch, Sac Tf Torch, Sacwa tf Torch |
| 10 | LunarlanderContinount-V2 | SACWA TF TORCH |
| 11 | Bipedalwalker-V3 | Es, Ars |
| 12 | Pongnoframeskip-V4 | CategoricalDQN TF TORCH, QR-DQN TF TORCH, IQN TF TORCH |
| 13 | Bernoullimab-V0 | UCB |
| 13 | Gaussianmab-V0 | UCB |
| 14 | Tictactoe-V0 | Alphazero tf Torch |
| 15 | Tiger-V0 | VI |
| 16 | Humanoidbulletenv-V0 | Поведение кклон TF Torch, Gail Tf Torch |
: : 原理与 Python 实战 (2023 中文版)
全球第一本配套 Tensorflow 2 和 Pytorch 1/2 对照代码的强化学习教程书
中文版书籍支持内容
本书内容
- 第一部分 (1 章) : 从零开始介绍强化学习的背景知识 , 介绍环境库 Гренаж 的使用。 的使用。
- 第二部分 (2 ~ 15 章) : 基于折扣奖励离散时间 Марков 决策过程模型 , 介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论 进而在理论的基础上讲解算法 , 并为算法提供配套代码实现。基础理论的讲解突出主干部分 , 算法讲解全面覆盖主流的强化学习算法 , 包括经典的非深度强化学习算法和近年流行的强化学习算法。 Python 实现和算法讲解一一对应 , 还给出了深度强化学习算法的 tensorflow
- 第三部分 (16 章) : 介绍其他强化学习模型 , 包括平均奖励模型、连续时间模型、非齐次模型、半 Марков 模型、部分可观测模型等 , 以便更好了解强化学习研究的全貌。 以便更好了解强化学习研究的全貌。 以便更好了解强化学习研究的全貌。
本书特色
本书完整地介绍了主流强化学习理论。
- 选用现代强化学习理论体系 , 突出主干 主要定理均给出证明过程。基于理论讲解强化学习算法 , 全面覆盖主流强化学习算法 , 包括了资格迹等经典算法和 muzero 等深度强化学习算法。
- 全书采用完整的数学体系 , 各章内容循序渐进。全书采用一致的数学符号 并兼容主流强化学习教程。
- 每章都配有知识点总结 , 并搭配习题。
本书各章均提供 Python 代码 , 实战性强。
- : : 全书代码统一规范、简约完备 , 与算法讲解直接对应。
- : 所有代码及运行结果均在 GitHub 上展示 既可以在浏览器上查阅 既可以在浏览器上查阅 也可以下载到本地运行。各算法实现放在单独的文件里 , 可单独查阅和运行。
- : : 既有 Тренажерный зал 的内置环境 也有在 Gym 基础上进一步扩展的第三方环境 , 还带领读者一起实现自定义的环境。
- : : 所有代码在三大操作系统 (Windows 、 macos 、 Linux) 上均可运行 , 书中给出了环境的安装和配置方法。深度强化学习代码还提供了 Tensorflow 和 Pytorch 对照代码。读者可任选其一。
- : : 所有代码均可在没有 GPU 的个人计算机上运行。
: : 原理与 Python 实现 (2019)
全球第一本配套 Tensorflow 2 代码的强化学习教程书
中国第一本配套 Tensorflow 2 代码的纸质算法书
中文版书籍支持内容
本书特色
本书介绍强化学习理论及其 Python 实现。
- : : , 严谨地讲授强化学习的理论基础 , 主要定理均给出证明过程。各章内容循序渐进 , 覆盖了所有主流强化学习算法 包括资格迹等非深度强化学习算法和柔性执行者/评论者等深度强化学习算法。
- 案例丰富 : 在您最爱的操作系统 (包括 Windows 、 macos 、 Linux) 上 , 基于 Python 3 、 Gym 0,26 和 Tensorflow 2 , 实现强化学习算法。全书实现统一规范 体积小、重量轻。第 1 ~ 9 章给出了算法的配套实现 , 环境部分只依赖于 Gym 的最小安装 , 在没有 gpu 的计算机上也可运行;第 10 ~ 12 章介绍了多个热门综合案例 , 涵盖 , 在有普通 gpu
QQ 群
- QQ 群 : 722846914 (勘误报错可发此群 , 其他问题提问前请先 Google , 群主和管理员不提供免费咨询服务)
- : 696984257 (非小白群 , 多任务强化学习+强化元学习+终身强化学习+迁移强化学习 , 勘误报错勿发此群 , 提问前请先 Google)
- : 由于 QQ 的 ошибка , 即使正确输入答案 也可能会验证失败。这时更换设备重试、更换输入法重试、改日重试均可能解决问题。如果答案中有英文字母 , 清注意大小写。
- 中文版书前言中给出的 QQ 群 (935702193、243613392 和 948110103) 已满 , 不再新增群成员 , 谢谢理解。