การเรียนรู้การเสริมแรง: การใช้ทฤษฎีและ Python
หนังสือสอนการเรียนรู้การเสริมแรงครั้งแรกพร้อมการทำแผนที่แบบตัวต่อตัว Tensorflow 2 และ Pytorch 1 & 2 การใช้งาน
| ฉบับภาษาอังกฤษ | 中文版 | 中文 2019 版 |
|---|
| | |
โปรดส่งอีเมลถึงฉันหากคุณสนใจที่จะเผยแพร่หนังสือเล่มนี้ในภาษาอื่น ๆ
คุณสมบัติ
นี่คือหนังสือกวดวิชาเกี่ยวกับการเรียนรู้การเสริมแรงพร้อมคำอธิบายเกี่ยวกับการใช้ทฤษฎีและการใช้ Python
- ทฤษฎี: เริ่มต้นจากกรอบทางคณิตศาสตร์ที่สม่ำเสมอหนังสือเล่มนี้ได้มาจากทฤษฎีและอัลกอริทึมของการเรียนรู้การเสริมแรงรวมถึงอัลกอริทึมในยุคจำลองขนาดใหญ่เช่น PPO, RLHF, IRL และ PBRL
- การปฏิบัติ: ทุกบทมาพร้อมกับการใช้งานที่มีคุณภาพสูงตาม Python 3, Gym 0.26 และ Tensorflow 2 / Pytorch 1 & 2 รหัสทั้งหมดเข้ากันได้กับ Windows, Linux และ MacOS สามารถทำงานในแล็ปท็อปได้
เนื้อหาสนับสนุนสำหรับเวอร์ชันภาษาอังกฤษ
ตรวจสอบรหัสคำตอบการออกกำลังกาย ฯลฯ ที่นี่
ตรวจสอบ SpringerLink Amazon สำหรับเนื้อหาหนังสือ
ตารางรหัส
รหัสทั้งหมดได้รับการบันทึกเป็นไฟล์. ipynb และไฟล์. html ในไดเรกทอรีเดียวกัน
| บท | นโยบายสภาพแวดล้อมและแบบปิด | ตัวแทน |
|---|
| 2 | Cliffwalking-v0 | คนเดินเล่น |
| 3 | Frozenlake-V1 | DP |
| 4 | แบล็คแจ็ค -v1 | MC |
| 5 | Taxi-V3 | Sarsa, คาดว่าจะเป็น ql, doubleql, sarsa (λ) |
| 6 | MountainCar-V0 | Sarsa, Sarsa (λ), DQN TF TORCH, DoubledQn TF TORCH, DUELDQN TF TORCH |
| 7 | cartpole-0 | VPG TF TORCH, VPGWBASELINE TF TORCH, OffPolicyVPG TF TORCH, OffPolicyVPGWBASELINE TF TORCH |
| 8 | ACROBOT-V1 | คบเพลิง QAC TF, Advantageac TF TORCH, คุณสมบัติที่มีสิทธิ์ได้รับ TF TORCH, PPO TF TORCH, NPG TF TORCH, TRPO TF TORCH, OffPAC TF TORCH |
| 9 | Pendulum-V1 | DDPG TF TORCH, TD3 TF TORCH |
| 10 | Lunarlander-V2 | SQL TF TORCH, SAC TF TORCH, SACWA TF TORCH |
| 10 | Lunarlandercontinuous-V2 | Sacwa TF TORCH |
| 11 | BipedalWalker-V3 | ES, ARS |
| 12 | Pongnoframeskip-V4 | CategoricalDQN TF TORCH, QR-DQN TF TORCH, IQN TF TORCH |
| 13 | bernoullimab-v0 | UCB |
| 13 | gaussianmab-v0 | UCB |
| 14 | tictactoe-v0 | Alphazero TF TORCH |
| 15 | Tiger-V0 | VI |
| 16 | Humanoidbulletenv-v0 | BehaviorClone TF TORCH, GAIL TF TORCH |
强化学习: 原理与 Python 实战 (2023 中文版)
全球第一本配套 Tensorflow 2 和 Pytorch 1/2 对照代码的强化学习教程书
中文版书籍支持内容
本书内容
- 第一部分(第 1 章)::, 介绍环境库ยิม的使用。
- 第二部分(第 2 ~ 15 章):: markov 决策过程模型, 介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论, 进而在理论的基础上讲解算法, 并为算法提供配套代码实现。基础理论的讲解突出主干部分, 算法讲解全面覆盖主流的强化学习算法, 包括经典的非深度强化学习算法和近年流行的强化学习算法。 python 实现和算法讲解一一对应, tensorflow 和 pytorch
- 第三部分(第 16 章): 介绍其他强化学习模型, 包括平均奖励模型、连续时间模型、非齐次模型、半 Markov 模型、部分可观测模型等, 以便更好了解强化学习研究的全貌。以便更好了解强化学习研究的全貌。
本书特色
本书完整地介绍了主流强化学习理论。
- 选用现代强化学习理论体系, 突出主干, 主要定理均给出证明过程。基于理论讲解强化学习算法, 全面覆盖主流强化学习算法, 包括了资格迹等经典算法和 muzero 等深度强化学习算法。
- 全书采用完整的数学体系, 各章内容循序渐进。全书采用一致的数学符号, 并兼容主流强化学习教程。
- 每章都配有知识点总结, 并搭配习题。
本书各章均提供 Python 代码, 实战性强。
- 简洁易懂: 全书代码统一规范、简约完备, 与算法讲解直接对应。
- 查阅方便: 所有代码及运行结果均在 GitHub 上展示, 既可以在浏览器上查阅, 也可以下载到本地运行。各算法实现放在单独的文件里, 可单独查阅和运行。可单独查阅和运行。
- 环境全面: 既有ยิม的内置环境, 也有在ยิม基础上进一步扩展的第三方环境, 还带领读者一起实现自定义的环境。
- 兼容性好:: windows、 macOS、 linux) 上均可运行, tensorflow 和 pytorch 对照代码。读者可任选其一。
- 硬件要求低: 所有代码均可在没有 gpu 的个人计算机上运行。
强化学习: 原理与 Python 实现 (2019)
tensorflow 2 代码的强化学习教程书
tensorflow 2 代码的纸质算法书
中文版书籍支持内容
本书特色
本书介绍强化学习理论及其 Python 实现。
- 理论完备: 全书用一套完整的数学体系, 严谨地讲授强化学习的理论基础, 主要定理均给出证明过程。各章内容循序渐进, 覆盖了所有主流强化学习算法, 包括资格迹等非深度强化学习算法和柔性执行者/评论者等深度强化学习算法。
- 案例丰富:: windows、 macOS、 linux) 上, python 3、 ยิม 0.26 和 tensorflow 2, 实现强化学习算法。全书实现统一规范实现强化学习算法。全书实现统一规范, 1 ~ 9 章给出了算法的配套实现, 环境部分只依赖于环境部分只依赖于在有普通 gpu 的计算机上也可运行;第 10 ~ 12 章介绍了多个热门综合案例,,,,,, 章介绍了多个热门综合案例章介绍了多个热门综合案例
qq 群
- qq 群: 722846914 (勘误报错可发此群, 其他问题提问前请先 Google, 群主和管理员不提供免费咨询服务))
- 多任务群: 696984257 (非小白群, 多任务强化学习+强化元学习+终身强化学习+迁移强化学习, 勘误报错勿发此群, 提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先提问前请先,,,, 迁移强化学习迁移强化学习勘误报错勿发此群迁移强化学习强化元学习强化元学习强化元学习
- 关于入群验证问题: 由于 qq 的บั๊ก, 即使正确输入答案, 也可能会验证失败。这时更换设备重试、更换输入法重试、改日重试均可能解决问题。如果答案中有英文字母, 清注意大小写。清注意大小写。
- 中文版书前言中给出的 qq 群( 935702193、243613392 和 948110103) 已满,, 不再新增群成员, 谢谢理解。谢谢理解。谢谢理解。谢谢理解。谢谢理解。谢谢理解。谢谢理解。谢谢理解。,,,,,