강화 학습 : 이론 및 파이썬 구현
일대일 매핑 인 Tensorflow 2 및 Pytorch 1 & 2 구현이있는 첫 번째 강화 학습 자습서
이 책을 다른 언어로 게시하는 데 관심이 있으시면 저에게 이메일을 보내주십시오.
특징
이것은 이론과 파이썬 구현에 대한 설명과 함께 강화 학습에 관한 튜토리얼 책입니다.
- 이론 : 균일 한 수학적 프레임 워크에서 시작 하여이 책은 PPO, RLHF, IRL 및 PBRL과 같은 대규모 모델 시대의 알고리즘을 포함하여 강화 학습의 이론과 알고리즘을 도출합니다.
- 연습 : 모든 장에는 Python 3, Gym 0.26 및 Tensorflow 2 / Pytorch 1 & 2를 기반으로 한 고품질 구현이 수반됩니다. 모든 코드는 Windows, Linux 및 MacOS와 호환됩니다. 랩톱에서 실행할 수 있습니다.
영어 버전의 컨텐츠 지원
코드, 운동 답변 등을 여기에서 확인하십시오.
SpringerLink Amazon에서 책 내용을 확인하십시오.
코드 테이블
모든 코드는 동일한 디렉토리에 .ipynb 파일과 .html 파일로 저장되었습니다.
| 장 | 환경 및 폐쇄 형 정책 | 대리인 |
|---|
| 2 | 클리프 워킹 -V0 | 보이 |
| 3 | Frozenlake-V1 | DP |
| 4 | 블랙 잭 -V1 | MC |
| 5 | 택시 V3 | SARSA, Everthsarsa, QL, DoubleQL, Sarsa (λ) |
| 6 | MountainCar-V0 | SARSA, SARSA (λ), DQN TF 토치, DoubledQn TF Torch, Dueldqn TF Torch |
| 7 | 카트 폴 -0 | VPG TF 토치, vpgwbaseline TF 토치, offolicyvpg tf 횃불, offpolicyvpgwbaseline tf 횃불 |
| 8 | Acrobot-V1 | QAC TF 토치, AdvantAgeac TF 토치, 자격 부족 TF 토치, PPO TF 토치, NPG TF 토치, TRPO TF 토치, 오프패 팩 TF 토치 |
| 9 | 진자 V1 | DDPG TF 토치, TD3 TF 토치 |
| 10 | LUNARLANDER-V2 | SQL TF 토치, SAC TF 토치, SACWA TF 토치 |
| 10 | LUNARLANDERCONTINUUS-V2 | Sacwa tf Torch |
| 11 | Bipedalwalker-v3 | ES, ARS |
| 12 | Pongnoframeskip-v4 | CANTIOLICALDQN TF 토치, QR-DQN TF 토치, IQN TF 토치 |
| 13 | Bernoullimab-V0 | UCB |
| 13 | 가우시안 마크 -V0 | UCB |
| 14 | Tictactoe-V0 | 알 파자로 TF 토치 |
| 15 | Tiger-V0 | VI |
| 16 | Humanoidbulletenv-v0 | 행동 클론 TF 토치, 게일 TF 토치 |
强化学习 : 原理与 Python 实战 (2023 中文版)
全球第一本配套 Tensorflow 2 和 Pytorch 1/2 对照代码的强化学习教程书
中文版书籍支持内容
本书内容
- 第一部分 章 章 章 ■ : 从零开始介绍强化学习的背景知识 : 从零开始介绍强化学习的背景知识 介绍环境库 체육관 的使用。 的使用。
- 第二部分 ~ ~ ~ + + 第 第 2 ~ 15 章 : 基于折扣奖励离散时间 Markov 决策过程模型 决策过程模型, 介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论 介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论, 进而在理论的基础上讲解算法 进而在理论的基础上讲解算法, 并为算法提供配套代码实现。基础理论的讲解突出主干部分 并为算法提供配套代码实现。基础理论的讲解突出主干部分 算法讲解全面覆盖主流的强化学习算法 算法讲解全面覆盖主流的强化学习算法 算法讲解全面覆盖主流的强化学习算法 包括经典的非深度强化学习算法和近年流行的强化学习算法。 包括经典的非深度强化学习算法和近年流行的强化学习算法。 python 实现和算法讲解一一对应, 还给出了深度强化学习算法的 tensorflow 和 pytorch 对照实现。
- 第三部分 章 + (第 16 章) : 介绍其他强化学习模型 介绍其他强化学习模型, 包括平均奖励模型、连续时间模型、非齐次模型、半 Markov 模型、部分可观测模型等, 以便更好了解强化学习研究的全貌。 以便更好了解强化学习研究的全貌。
本书特色
本书完整地介绍了主流强化学习理论。
- "
- 全书采用完整的数学体系 全书采用完整的数学体系, 各章内容循序渐进。全书采用一致的数学符号, 并兼容主流强化学习教程。
- 每章都配有知识点总结, 并搭配习题。
本书各章均提供 파이썬 on on, 实战性强。
- 简洁易懂 : 全书代码统一规范、简约完备 全书代码统一规范、简约完备, 与算法讲解直接对应。
- 查阅方便 : 所有代码及运行结果均在 github 上展示 上展示, 既可以在浏览器上查阅, 也可以下载到本地运行。各算法实现放在单独的文件里, 可单独查阅和运行。 可单独查阅和运行。
- 环境全面 : 既有 체육관 的内置环境 的内置环境 的内置环境, 也有在 체육관 基础上进一步扩展的第三方环境 基础上进一步扩展的第三方环境, 还带领读者一起实现自定义的环境。
- 兼容性好 : 所有代码在三大操作系统 : (Windows 、 MACOS 、 Linux) 上均可运行 上均可运行, 书中给出了环境的安装和配置方法。深度强化学习代码还提供了 Tensorflow 和 Pytorch 对照代码。读者可任选其一。
- 硬件要求低 : 所有代码均可在没有 gpu 的个人计算机上运行。
强化学习 : 原理与 Python 实现 (2019)
tensorflow 2 代码的强化学习教程书
tensorflow 2 代码的纸质算法书
中文版书籍支持内容
本书特色
本书介绍强化学习理论及其 파이썬 on
- arg
- 案例丰富 : 在您最爱的操作系统 : 在您最爱的操作系统 − (包括 包括 Wind
QQ 群
- QQ 群 : 722846914 (勘误报错可发此群 勘误报错可发此群, 其他问题提问前请先 Google, 群主和管理员不提供免费咨询服务)
- are : 696984257 (非小白群 非小白群, 多任务强化学习+)
- arg
- 짐