openai_lab
ve PER
注意:請使用下一個版本,SLM-LAB。
OpenAI實驗室文檔
使用OpenAI健身房,Tensorflow和Keras進行增強學習的實驗框架。
Openai實驗室的創建是為了進行加強學習(RL),例如科學 -理論,實驗。它通過自動實驗和評估框架為Openai Gym和Keras提供了一個簡單的接口。
借助OpenAI實驗室,我們可以專注於研究強化學習的基本要素,例如算法,策略,內存和參數調整。它使我們能夠使用現有組件與研究思想實現的現有組件有效地構建代理。然後,我們可以通過運行實驗系統地測試研究假設。
閱讀有關實驗室在動機中解決的研究問題的更多信息。最終,該實驗室是進行強化學習的一般框架,Openai Gym和Keras的不可知論。例如,基於Pytorch的實現在路線圖上。
實施/計劃的核心RL算法列表。
要查看他們在OpenAI健身環境中的分數,請訪問Fitness Matrix 。
| 演算法 | 執行 | 評估得分(待定) |
|---|---|---|
| DQN | DQN | - |
| 雙DQN | DoubledQn | - |
| 決鬥DQN | - | - |
| 薩爾 | Deepsarsa | - |
| 非政策SARSA | Offpolicysarsa | - |
| per(優先經驗重播) | 優先級experienceReplay | - |
| CEM(交叉熵法) | 下一個 | - |
| 加強 | - | - |
| DPG(確定性政策梯度)非政治演員批評 | contorcritic | - |
| DDPG(深-DPG)具有目標網絡的參數 | DDPG | - |
| A3C(異步優勢參與者 - 批評) | - | - |
| dyna | 下一個 | - |
| trpo | - | - |
| Q*(lambda) | - | - |
| 追溯(lambda) | - | - |
| 神經情節對照(NEC) | - | - |
| EWC(彈性重量合併) | - | - |
接下來,請參閱安裝,然後跳到Quickstart。
Openai實驗室的時間解放,解決Cartpole-V0。