pytorch中的深入增強學習
該存儲庫包含Pytorch中所有基於模型和基於模型的RL算法。 (還可能包含我目前正在研究的一些研究想法)
對於pytorch-rl的C ++版本:pytorch-rl-cpp
這是什麼?
Pytorch-RL在Pytorch中實現了一些最先進的深入學習算法,尤其是那些與持續動作空間有關的算法。您可以在CPU或GPU上有效訓練算法。此外,Pytorch-RL開箱即用的Openai Gym。這意味著評估和使用不同算法進行播放很容易。當然,您可以根據自己的需求擴展Pytorch-rl。 TL:DR:Pytorch-RL使運行最新的深入增強學習算法變得非常容易。
安裝
從PYPI安裝Pytorch-RL(推薦):
PIP安裝Pytorch-Policy
依賴性
- Pytorch
- 健身房(Openai)
- mujoco-py(用於體育館的物理模擬和機器人環境)
- Pybullet(即將推出)
- MPI(僅支持MPI後端Pytorch安裝)
- TensorBoardX(https://github.com/lanpa/tensorboardx)
RL算法
- DQN(帶雙Q學習)
- DDPG
- 與她一起ddpg(用於Openai提取環境)
- 繼承製度的增強學習
- 優先經驗重播 + DDPG
- DDPG具有優先考慮的事後經驗重播(研究)
- 具有A3C的神經圖(即將推出)
- 彩虹DQN(即將推出)
- PPO(https://github.com/ikostrikov/pytorch-a2c-ppo-acktr)
- 她以自我關注的目標替代(研究)
- A3C(即將推出)
- ACER(即將推出)
- 達拉
- TDM
- 世界模型
- 軟演員評論
- 授權驅動探索(TensorFlow實施:https://github.com/navneet-nmk/empowerment-powerment-drive-driven-decploration)
環境
- 突破
- 乒乓球(即將推出)
- 手工操縱機器人任務
- 提取機器人任務
- 手持機器人任務
- 塊操縱機器人任務
- 蒙特祖瑪的複仇(當前研究)
- 陷阱
- 重力
- 載載
- Super Mario Bros(遵循安裝健身房的說明https://github.com/openai/retro)
- OpenSim Prosthetics NIPS挑戰賽(https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge)
環境建模(用於探索和域的適應)
由於訓練發電機和歧視者的不穩定,已經使用了多種gan訓練技巧。有關更多信息,請參考https://github.com/soumith/ganhacks。
即使使用這些技巧,也很難訓練gan融合。但是,在使用光譜歸一化(https://arxiv.org/abs/1802.05957)之後,Infogan進行了訓練以收斂。
對於圖像以使用gan和VAE的圖像圖像翻譯任務,Skip Connection的培訓確實有助於培訓。
- beta-vae
- Infogan
- cvae-gan
- 基於流量的生成模型(研究)
- 薩根
- 順序參加,推斷,重複
- 好奇心驅動的探索
- 探索的參數空間噪聲
- 嘈雜的網絡
參考
- 與深度強化學習一起玩atari,Mnih等,2013
- 通過深度強化學習的人類水平控制,Mnih等,2015
- 通過雙Q學習深度加固學習,Van Hasselt等,2015
- Lillicrap等,2015
- CVAE-GAN:通過不對稱訓練生成細粒的圖像,Bao等,2017
- Beta-vae:Higgins等人,2017年學習基本的視覺概念
- Hindsight Experience重播,Andrychowicz等,2017
- Infogan:可解釋的表示通過信息通過最大化生成對抗網的信息,Chen等,2016
- 世界模型,Ha等,2018
- 生成對抗網絡的光譜歸一化,Miyato等,2018
- 自我發作的生成對抗網絡,Zhang等,2018
- 好奇心驅動的自我監督預測的探索,Pathak等,2017
- 軟演員 - 批評:與隨機演員的非政策最大熵深鋼筋學習,Haarnoja等,2018
- 參數探索的參數空間噪聲,Plappert等,2018
- Fortunato等,2018
- 近端政策優化算法,Schulman等,2017
- 通過賦權無監督的實時控制,Karl等,2017
- 共同信息神經估計,Belghazi等,2018
- 使用共同信息估計的授權驅動探索,Kumar等,2018