rl book
1.0.0
1対1のマッピングTensorflow 2とPytorch 1&2の実装を備えた最初の強化学習チュートリアルブック
| 英語版 | 中文版 | 中文2019版 |
|---|---|---|
この本を他の言語で公開することに興味がある場合は、私にメールしてください。
特徴
これは、理論とPythonの実装の説明を含む、強化学習に関するチュートリアルブックです。
コード、エクササイズの回答などについては、こちらをご覧ください。
SpringerLink Amazonを確認してください。
すべてのコードは、同じディレクトリ内の.ipynbファイルと.htmlファイルとして保存されています。
| 章 | 環境と閉鎖形式のポリシー | エージェント |
|---|---|---|
| 2 | CliffWalking-V0 | ベルマン |
| 3 | Frozenlake-V1 | DP |
| 4 | Blackjack-V1 | MC |
| 5 | タクシーV3 | Sarsa、Hoppdagsarsa、QL、DoubleQl、Sarsa(λ) |
| 6 | MountainCar-V0 | サルサ、サルサ(λ)、dqn tfトーチ、doubledqn tfトーチ、dueldqn tfトーチ |
| 7 | カートポール-0 | VPG TF TORCH、VPGWBASELINE TF TORCH、OFFPOLICYVPG TF TORCH、OFFPOLICYVPGWBASELINE TF TORCH |
| 8 | Acrobot-V1 | QAC TF TORCH、ADVANTAGEAC TF TORCH、適格性TRACEAC TF TORCH、PPO TF TORCH、NPG TF TORCH、TRPO TF TORCH、OFFPAC TF TORCH |
| 9 | 振り子V1 | DDPG TFトーチ、TD3 TFトーチ |
| 10 | Lunarlander-V2 | SQL TF TORCH、SAC TF TORCH、SACWA TF TORCH |
| 10 | lunarlandercontinuous-v2 | sacwa tfトーチ |
| 11 | Bipedalwalker-V3 | es、ars |
| 12 | pongnoframeskip-v4 | categoricaldqn tfトーチ、qr-dqn tfトーチ、iqn tfトーチ |
| 13 | Bernoullimab-V0 | UCB |
| 13 | gaussianmab-v0 | UCB |
| 14 | Tictactoe-V0 | アルファゼロTFトーチ |
| 15 | Tiger-V0 | vi |
| 16 | ヒューマノイドbulletenv-v0 | BehaviorClone TFトーチ、ゲイルTFトーチ |
tensorflow 2
中文版书籍支持内容
本书内容
本书特色
本书完整地介绍了主流强化学习理论。
本书各章均提供python代码、实战性强。
tensorflow 2代码的强化学习教程书
tensorflow 2代码的纸质算法书
中文版书籍支持内容
本书特色
python实现。
QQ群