التعلم التعزيز: النظرية وتنفيذ بيثون
أول كتاب تعليمي تعليمي مع تعزيز مع تطبيق TensorFlow 2 و Pytorch 1 و 2
| الطبعة الإنجليزية | 中文版 | 中文 2019 版 |
|---|
| | |
يرجى مراسلتي عبر البريد الإلكتروني إذا كنت مهتمًا بنشر هذا الكتاب بلغات أخرى.
سمات
هذا كتاب تعليمي عن تعلم التعزيز ، مع شرح النظرية وتنفيذ بيثون.
- النظرية: بدءًا من إطار رياضي موحد ، يستمد هذا الكتاب نظرية وخوارزميات التعلم التعزيز ، بما في ذلك الخوارزميات في عصر النموذج الكبير مثل PPO و RLHF و IRL و PBRL.
- الممارسة: يرافق كل فصل تنفيذ عالي الجودة على أساس Python 3 و Gym 0.26 و TensorFlow 2 / Pytorch 1 & 2. يمكن تشغيل جميع الرموز مع Windows و Linux و MacOS ، في جهاز كمبيوتر محمول.
دعم محتويات النسخة الإنجليزية
تحقق هنا للحصول على الرموز ، والإجابات التمرين ، إلخ.
تحقق من Springerlink Amazon لمحتويات الكتب.
جدول الرموز
تم حفظ جميع الرموز كملف .ipynb وملف .html في نفس الدليل.
| الفصل | البيئة وسياسة الشكل المغلقة | عامل |
|---|
| 2 | Cliffwalking-V0 | قارع الناقوس |
| 3 | Frozenlake-V1 | موانئ دبي |
| 4 | Blackjack-V1 | MC |
| 5 | SARI-V3 | SARSA ، المتوقع ، QL ، doubleql ، SARSA (λ) |
| 6 | MountainCar-V0 | Sarsa ، Sarsa (λ) ، Torch tf dqn tf ، torch doubledqn tf ، dueldqn tf torch |
| 7 | Cartpole-0 | Torch Tor Torch VPG ، VPGWBASELINE TF Torch ، OffpolicyVPG TF Torch ، OffpolicyVPGWBASELINE TF Torch |
| 8 | Acrobot-V1 | Torch Torch QAC TF ، torch Advantageac TF ، Torch Torch Torch ، PPO TF ، TF Torch ، TRPO TF Torch ، Torch Offpac TF Torch |
| 9 | البندول-V1 | DDPG TF Torch ، TD3 TF Torch |
| 10 | Lunarlander-V2 | torch sql tf ، شعلة sac tf ، torch sacwa tf |
| 10 | LunarlanderContinuous-V2 | sacwa tf الشعلة |
| 11 | Bipedalwalker-V3 | ES ، آرس |
| 12 | pongnoframeskip-v4 | Torch Torch CatmoricalDQN TF ، QR-DQN TF Torch ، IQN TF Torch |
| 13 | Bernoullimab-V0 | UCB |
| 13 | Gaussianmab-V0 | UCB |
| 14 | Tictactoe-V0 | alphazero tf الشعلة |
| 15 | Tiger-V0 | السادس |
| 16 | Humanoidbulletenv-V0 | Behaviorclone TF Torch ، Gail TF Torch |
: : python 实战 (2023 中文版)
全球第一本配套 Tensorflow 2 和 Pytorch 1/2 对照代码的强化学习教程书
中文版书籍支持内容
本书内容
- 第一部分 (第 1 章) : 从零开始介绍强化学习的背景知识 , 介绍环境库 gym 的使用。
- 第二部分 (第 2 ~ 15 章 : : 基于折扣奖励离散时间 markov 决策过程模型 , 介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论 , 进而在理论的基础上讲解算法 并为算法提供配套代码实现。基础理论的讲解突出主干部分 , , , 包括经典的非深度强化学习算法和近年流行的强化学习算法。 python 实现和算法讲解一一对应 , 还给出了深度强化学习算法的 tensorflow
- 第三部分 ((16 章) : 介绍其他强化学习模型 , 包括平均奖励模型、连续时间模型、非齐次模型、半 markov 模型、部分可观测模型等 , 以便更好了解强化学习研究的全貌。
本书特色
本书完整地介绍了主流强化学习理论。
- 选用现代强化学习理论体系 , 突出主干 , 主要定理均给出证明过程。基于理论讲解强化学习算法 全面覆盖主流强化学习算法 , 包括了资格迹等经典算法和 muzero 等深度强化学习算法。
- 全书采用完整的数学体系 , 各章内容循序渐进。全书采用一致的数学符号 , 并兼容主流强化学习教程。
- 每章都配有知识点总结 , 并搭配习题。
python 代码 , 实战性强。
- : : 全书代码统一规范、简约完备 , 与算法讲解直接对应。
- : : github 上展示 , 既可以在浏览器上查阅 , 也可以下载到本地运行。各算法实现放在单独的文件里 , 可单独查阅和运行。
- : : gym 的内置环境 , 也有在 gym 基础上进一步扩展的第三方环境 , 还带领读者一起实现自定义的环境。
- : : 所有代码在三大操作系统 (Windows 、 macos 、 linux) 上均可运行 , 书中给出了环境的安装和配置方法。深度强化学习代码还提供了 tensorflow 和 pytorch 对照代码。读者可任选其一。
- : : GPU 的个人计算机上运行。
: : python 实现 (2019)
全球第一本配套 Tensorflow 2 代码的强化学习教程书
中国第一本配套 Tensorflow 2 代码的纸质算法书
中文版书籍支持内容
本书特色
python 实现。
- : : 全书用一套完整的数学体系 , 严谨地讲授强化学习的理论基础 , , 覆盖了所有主流强化学习算法 , 包括资格迹等非深度强化学习算法和柔性执行者/评论者等深度强化学习算法。
- : : : 在您最爱的操作系统 (包括 windows 、 macos 、 linux) 上 , 基于 基于 基于 python 3 、 gym 0.26 和 tensorflow 2 , 实现强化学习算法。全书实现统一规范 实现强化学习算法。全书实现统一规范 体积小、重量轻。第 1 ~ 9 ~
QQ 群
- QQ : : 722846914 (勘误报错可发此群 , 其他问题提问前请先 google , 群主和管理员不提供免费咨询服务)
- : 696984257 (非小白群 , 多任务强化学习+强化元学习+终身强化学习+迁移强化学习 , 勘误报错勿发此群 , 提问前请先 google)
- : : 由于 QQ 的 bug , 即使正确输入答案 , 也可能会验证失败。这时更换设备重试、更换输入法重试、改日重试均可能解决问题。如果答案中有英文字母 , 清注意大小写。
- 中文版书前言中给出的 QQ 群 (935702193、243613392 和 9481101103) 已满 , 不再新增群成员 谢谢理解。