Descarga rl book - Descargar el código fuente rl book

Descargar

Aprendizaje de refuerzo: teoría e implementación de Python

El primer libro de tutorial de aprendizaje de refuerzo con implementación de mapeo TensorFlow 2 y Pytorch 1 y 2

Edición inglesa	中文版	中文 2019 版

Envíeme un correo electrónico si está interesado en publicar este libro en otros idiomas.

Características

Este es un libro tutorial sobre aprendizaje de refuerzo, con explicación de la teoría y la implementación de Python.

Teoría: a partir de un marco matemático uniforme, este libro deriva la teoría y los algoritmos del aprendizaje de refuerzo, incluidos los algoritmos en la era del modelo grande como PPO, RLHF, IRL y PBRL.
Práctica: Cada capítulo se acompaña de una implementación de alta calidad basada en Python 3, Gym 0.26 y Tensorflow 2 / Pytorch 1 y 2. Todos los códigos son compatibles con Windows, Linux y MacOS, se pueden ejecutar en una computadora portátil.

Consulte aquí los códigos, las respuestas de ejercicio, etc.

Consulte Springerlink Amazon para ver el contenido del libro.

Todos los códigos se han guardado como un archivo .ipynb y un archivo .html en el mismo directorio.

Capítulo	Medio ambiente y política de forma cerrada	Agente
2	Cliffwalking-V0	Campanario
3	Frozenlake-V1	DP
4	Blackjack-v1	Mc
5	Taxi-V3	Sarsa, esperadoSarsa, QL, Doubleql, Sarsa (λ)
6	Montaña-v0	Sarsa, Sarsa (λ), Dqn Tf Torch, Doubledqn Tf Torch, Dueldqn Tf Torch
7	Cartpole-0	VPG TF Torch, VPGWBaseline TF Torch, Offpolicyvpg TF Torch, OffpolicyvpgwBaseline TF Torch
8	Acrobot-V1	QAC TF TORCH, ADVANTAGEAC TF TORCH, ELIGIBILIDADTRACEAC TF TORCH, PPO TF TORCH, NPG TF TORCH, TRPO TF TORCH, OFFPAC TF TORCH
9	Péndulo-v1	DDPG TF Torch, TD3 TF Torch
10	Lunarlander-v2	SQL TF Torch, SAC TF Torch, Sacwa TF Torch
10	Lunarlandercontinuous-v2	Sacwa tf antorcha
11	Bipedalwalker-v3	Es, ars
12	Pongnoframeskip-v4	CategoricalDqn Tf Torch, Qr-Dqn Tf Torch, IQN TF Torch
13	Bernoullimab-v0	UCB
13	Gaussianmab-v0	UCB
14	Tictactoe-v0	Torca de Alphazero TF
15	Tigre-v0	VI
16	Humanoidbulletenv-v0	BehaviorClone TF Torch, Gail Tf Torch

全球第一本配套 TensorFlow 2 和 Pytorch 1/2 对照代码的强化学习教程书

中文版书籍支持内容

本书内容

第一部分（第 1 章）：从零开始介绍强化学习的背景知识介绍环境库介绍环境库 gimnasio 的使用。
第二部分（第 2 ～ 15 章）：基于折扣奖励离散时间 Markov 决策过程模型，介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论，进而在理论的基础上讲解算法，并为算法提供配套代码实现。基础理论的讲解突出主干部分，算法讲解全面覆盖主流的强化学习算法，包括经典的非深度强化学习算法和近年流行的强化学习算法。 python 实现和算法讲解一一对应，还给出了深度强化学习算法的 tensorflow 和 pytorch 对照实现。
第三部分（第 16 ：：介绍其他强化学习模型包括平均奖励模型、连续时间模型、非齐次模型、半包括平均奖励模型、连续时间模型、非齐次模型、半 Markov 模型、部分可观测模型等以便更好了解强化学习研究的全貌。以便更好了解强化学习研究的全貌。

本书特色

本书完整地介绍了主流强化学习理论。

选用现代强化学习理论体系，突出主干，主要定理均给出证明过程。基于理论讲解强化学习算法全面覆盖主流强化学习算法全面覆盖主流强化学习算法包括了资格迹等经典算法和 Muzero 等深度强化学习算法。
全书采用完整的数学体系，各章内容循序渐进。全书采用一致的数学符号并兼容主流强化学习教程。并兼容主流强化学习教程。
每章都配有知识点总结并搭配习题。并搭配习题。

本书各章均提供 Python 代码实战性强。

简洁易懂：全书代码统一规范、简约完备与算法讲解直接对应。与算法讲解直接对应。
：：所有代码及运行结果均在 github 上展示，既可以在浏览器上查阅也可以下载到本地运行。各算法实现放在单独的文件里，可单独查阅和运行。
：：既有既有的内置环境的内置环境也有在也有在基础上进一步扩展的第三方环境基础上进一步扩展的第三方环境还带领读者一起实现自定义的环境。还带领读者一起实现自定义的环境。
：：所有代码在三大操作系统（ Windows 、 macOS 、 Linux ）上均可运行，书中给出了环境的安装和配置方法。深度强化学习代码还提供了 TensorFlow 和 Pytorch 对照代码。读者可任选其一。
硬件要求低：所有代码均可在没有 GPU 的个人计算机上运行。

全球第一本配套 TensorFlow 2 代码的强化学习教程书

中国第一本配套 TensorFlow 2 代码的纸质算法书

中文版书籍支持内容

本书特色

本书介绍强化学习理论及其 Python 实现。

理论完备：全书用一套完整的数学体系，严谨地讲授强化学习的理论基础主要定理均给出证明过程。各章内容循序渐进，覆盖了所有主流强化学习算法，包括资格迹等非深度强化学习算法和柔性执行者/评论者等深度强化学习算法。
：：在您最爱的操作系统（包括 Windows 、 macOS 、 Linux ）上，基于 Python 3 、 Gym 0.26 和 TensorFlow 2 ，，，体积小、重量轻。第 1 ～ 9 章给出了算法的配套实现环境部分只依赖于环境部分只依赖于环境部分只依赖于的最小安装的最小安装在没有在没有在没有 gpu 的计算机上也可运行；第 10 ～ 12 章介绍了多个热门综合案例涵盖涵盖涵盖的完整安装和自定义扩展的完整安装和自定义扩展在有普通在有普通在有普通的计算机上即可运行。的计算机上即可运行。

QQ 群

QQ ： 722846914 （勘误报错可发此群，其他问题提问前请先 Google ，群主和管理员不提供免费咨询服务）
：： 696984257 （非小白群，多任务强化学习+强化元学习+终身强化学习+迁移强化学习，勘误报错勿发此群，提问前请先 Google）
关于入群验证问题：由于 QQ 的 Error ，即使正确输入答案也可能会验证失败。这时更换设备重试、更换输入法重试、改日重试均可能解决问题。如果答案中有英文字母，清注意大小写。
中文版书前言中给出的 QQ 群（ 935702193、243613392 和 948110103 ）已满，不再新增群成员谢谢理解。谢谢理解。

Expandir

Información adicional