Grokking深入強化學習
注意:目前,僅支持從Docker容器(下)運行代碼。 Docker允許創建一個更有可能在所有系統上工作的環境。基本上,除Docker本身外,我為您安裝和配置所有軟件包,而您只需在經過測試的環境上運行代碼即可。
要安裝Docker,我建議您進行網絡搜索“在此處<您的OS上安裝Docker”。要在GPU上運行代碼,您必須另外安裝Nvidia-Docker。 Nvidia Docker允許在Docker容器中使用主機的GPU。安裝了Docker(和Nvidia-Docker)後,請按照以下三個步驟進行操作。
運行代碼
- 克隆這個倉庫:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - 用以下方式拉動GDRL圖像
docker pull mimoralea/gdrl:v0.14 - 旋轉容器:
- 在Mac或Linux上:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - 在Windows上:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - 注意:如果您使用的是GPU,則將
nvidia-docker或add --gpus all用於--rm 。
- 打開瀏覽器,然後轉到終端中顯示的URL(可能是:http:// localhost:8888)。密碼是:
gdrl
關於這本書
書的網站
https://www.manning.com/books/grokking-deep-reinforcement-learning
內容表
- 深度加強學習簡介
- 增強學習的數學基礎
- 平衡立即和長期目標
- 平衡信息的收集和利用
- 評估代理商的行為
- 改善代理商的行為
- 更有效,有效地實現目標
- 基於價值的深入強化學習簡介
- 更穩定的基於價值的方法
- 基於樣本有效值的方法
- 政策梯度和演員批判性方法
- 高級參與者 - 批評方法
- 邁向人工通用情報
詳細的內容表
1。深入增強學習簡介
2。強化學習的數學基礎
- (Livebook)
- (筆記本)
- 實施幾個MDP:
- 強盜步行
- 強盜滑水
- 濕滑的步行三
- 隨機步行
- 拉塞爾和諾維格的網格世界來自AIMA
- 冷凍
- FrozenLake8x8
3。平衡立即和長期目標
4。平衡信息的聚會和利用
- (Livebook)
- (筆記本)
- 實施匪徒問題的勘探策略:
- 隨機的
- 貪婪的
- 電子怪癖
- 電子綠色和線性衰減的epsilon
- 電子怪癖,呈指數衰減的Epsilon
- 樂觀的初始化
- SoftMax
- 上限限制
- 貝葉斯
5。評估代理商的行為
- (Livebook)
- (筆記本)
- 實施解決預測問題的算法(策略估算):
- 上一次訪問的蒙特卡洛預測
- 每次訪問的蒙特卡洛預測
- 時間差異預測(TD)
- N步長差異預測(N-Step TD)
- TD(λ)
6。改善代理商的行為
- (Livebook)
- (筆記本)
- 實施解決控制問題的算法(策略改進):
- 上一次訪問的蒙特卡洛控制
- 每次訪問的蒙特卡洛控制
- policy TD控制:SARSA
- 非政策TD控制:Q學習
- 雙Q學習
7。更有效,有效地實現目標
- (Livebook)
- (筆記本)
- 實施更有效,更有效的增強學習算法:
- SARSA(λ)用替換軌跡
- SARSA(λ)帶有累積痕跡
- Q(λ)用替換軌跡
- Q(λ)帶有累積跡線
- Dyna-Q
- 軌跡採樣
8。基於價值的深入增強學習簡介
9。基於價值的更穩定的方法
- (Livebook)
- (筆記本)
- 實施“經典”基於價值的深鋼筋學習方法:
- 深Q-Networks(DQN)
- 雙重Q-NETWORKS(DDQN)
10。基於樣本有效的基於價值的方法
- (Livebook)
- (筆記本)
- 實施基於價值的深入強化學習方法的主要改進:
- Dueling Deep Q-Networks(Dueling DQN)
- 優先經驗重播(PER)
11。政策授權和演員批評方法
- (Livebook)
- (筆記本)
- 實施經典的基於政策和參與者 - 批判性的深入強化學習方法:
- 沒有價值功能和蒙特卡洛回報的政策梯度(增強)
- 具有蒙特卡洛回報訓練的價值功能基線的政策梯度(VPG)
- 異步優勢演員 - 批評(A3C)
- 廣義優勢估計(GAE)
- [同步]優勢演員 - 批評(A2C)
12。高級演員批評方法
- (Livebook)
- (筆記本)
- 實施高級參與者 - 批評方法:
- 深層確定性政策梯度(DDPG)
- 雙重延遲的深層確定性政策梯度(TD3)
- 軟演員批評(SAC)
- 近端策略優化(PPO)
13。邁向人工通用情報