グローキングディープ補強学習
注:現時点では、Dockerコンテナ(下)からコードのみを実行しているのはサポートされています。 Dockerは、すべてのシステムで機能する可能性が高い単一の環境を作成できます。基本的に、Docker自体を除くすべてのパッケージをインストールして構成し、テスト済み環境でコードを実行するだけです。
Dockerをインストールするには、「Dockerのインストール<Your OS Here>」のWeb検索をお勧めします。 GPUでコードを実行するには、Nvidia-Dockerをさらにインストールする必要があります。 Nvidia Dockerでは、Dockerコンテナ内でホストのGPUを使用できます。 Docker(およびGPUを使用している場合はNvidia-Docker)をインストールしたら、下の3つのステップに従ってください。
コードを実行します
- このレポをクローンします:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - gdrl画像を次のように引きます。
docker pull mimoralea/gdrl:v0.14 - コンテナをスピンアップします:
- MacまたはLinuxで:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - 注:GPUを使用している場合は、
nvidia-dockerまたはadd --gpus all --rm on the Commandを使用します。
- ブラウザを開き、端末に表示されているURLに移動します(http:// localhost:8888)。パスワードは次のとおりです
gdrl
本について
本のウェブサイト
https://www.manning.com/books/grokking-deep-reinforcement-learning
コンテンツの表
- 深い強化学習の紹介
- 強化学習の数学的基盤
- 即時および長期の目標のバランスをとる
- 情報の収集と利用のバランスをとる
- エージェントの行動を評価します
- エージェントの動作の改善
- より効果的かつ効率的に目標を達成する
- 価値ベースのディープ補強学習の紹介
- より安定した価値ベースの方法
- サンプル効率の高い値ベースの方法
- 政策勾配および俳優の批判的な方法
- 高度な俳優criticメソッド
- 人工的な一般情報に向けて
コンテンツの詳細な表
1。深い強化学習の紹介
2。補強学習の数学的基盤
- (ライブブック)
- (ノート)
- 複数のMDPの実装:
- バンディットウォーク
- バンディットスリッパリーウォーク
- 滑りやすい歩行3
- ランダムウォーク
- アイマのラッセルとノーヴィグのグリッドワールド
- フローズンレイク
- FrozenLake8x8
3。即時および長期の目標のバランス
4.情報の収集と利用のバランス
- (ライブブック)
- (ノート)
- 盗賊問題のための探査戦略の実装:
- ランダム
- よく深い
- e-greedy
- 直線的に減衰するイプシロンを備えたe-greedy
- 指数関数的に減衰するイプシロンを備えたe-greedy
- 楽観的な初期化
- softmax
- 上部信頼境界
- ベイジアン
5。エージェントの行動の評価
- (ライブブック)
- (ノート)
- 予測問題を解決するアルゴリズムの実装(ポリシーの推定):
- オンポリティファーストビジットモンテカルロ予測
- オンポリティでは、すべてのモンテカルロ予測
- 時間差予測(TD)
- n-step時間差予測(n-step td)
- TD(λ)
6.エージェントの行動の改善
- (ライブブック)
- (ノート)
- 制御問題を解決するアルゴリズムの実装(ポリシーの改善):
- オンポリシーファーストビジットモンテカルロコントロール
- オンポリシーでは、すべてのモンテカルロ制御
- オンポリティTDコントロール:SARSA
- オフポリティTDコントロール:Qラーニング
- ダブルQラーニング
7.目標をより効果的かつ効率的に達成する
- (ライブブック)
- (ノート)
- より効果的で効率的な強化学習アルゴリズムの実装:
- トレースの交換でsarsa(λ)
- トレースが蓄積したサルサ(λ)
- q(λ)は、トレースを置き換えます
- トレースが蓄積したq(λ)
- dyna-q
- 軌跡サンプリング
8。価値ベースの深い補強学習の紹介
9.より安定した価値ベースの方法
- (ライブブック)
- (ノート)
- 「クラシック」価値ベースのディープ強化学習方法の実装:
- ディープQネットワーク(DQN)
- ダブルディープQネットワーク(DDQN)
10。サンプル効率の高い値ベースの方法
- (ライブブック)
- (ノート)
- 価値ベースのディープ強化学習方法のための主要な改善の実装:
- DEULING DEEP Q-Networks(DUELING DQN)
- 優先順位付けされたエクスペリエンスリプレイ(PER)
11。ポリシー勾配および俳優批判的な方法
- (ライブブック)
- (ノート)
- 古典的なポリシーベースと俳優の批判的な深い強化学習方法の実装:
- 値関数とモンテカルロのリターンのないポリシーグラデーション(強化)
- モンテカルロリターン(VPG)で訓練された値関数ベースラインを備えたポリシーグラデーション
- 非同期アドバンテージ俳優 - クリティック(A3c)
- 一般化アドバンテージ推定(GAE)
- [同期]アドバンテージActor-Critic(A2C)
12。高度な俳優 - 批判的な方法
- (ライブブック)
- (ノート)
- 高度な俳優批判的な方法の実装:
- 深い決定論的ポリシーグラデーション(DDPG)
- ツイン遅延深い決定論的政策勾配(TD3)
- ソフト俳優 - 批評家(sac)
- 近位政策最適化(PPO)
13。人工的な一般情報に向けて