HINWEIS: Bitte verwenden Sie die nächste Version SLM-LAB.
OpenAI Lab Dokumentation
Ein Experimentierrahmen für Verstärkungslernen mit OpenAI -Fitnessstudio, Tensorflow und Keras.
OpenAI Lab wurde für Verstärkungslernen (RL) wie Science - Theorize, Experiment erstellt. Es bietet eine einfache Schnittstelle zum OpenAI -Fitnessstudio und Keras mit einem automatisierten Experimentier- und Bewertungsrahmen.
Mit OpenAI Lab konnten wir uns auf die Erforschung der wesentlichen Elemente des Verstärkungslernens wie dem Algorithmus, der Richtlinie, des Gedächtnisses und des Parameterabstimmungen konzentrieren. Es ermöglicht es uns, Agenten effizient mit vorhandenen Komponenten mit den Implementierungen aus Forschungsideen zu erstellen. Wir konnten dann die Forschungshypothesen systematisch testen, indem wir Experimente ausführen.
Lesen Sie mehr über die Forschungsprobleme, die das Labor mit Motivationen behandelt. Letztendlich ist das Labor ein verallgemeinerter Rahmen für Verstärkungslernen, Agnostiker von Openai Gym und Keras. ZB Pytorch-basierte Implementierungen sind auf der Roadmap.
Eine Liste der implementierten/geplanten RL -RL -Algorithmen.
Um ihre Punktzahlen gegen Openai -Fitnessumgebungen zu sehen, gehen Sie zur Fitnessmatrix .
| Algorithmus | Durchführung | Eval -Score (ausstehend) |
|---|---|---|
| DQN | DQN | - - |
| Doppel -DQN | Doubledqn | - - |
| Duelling DQN | - - | - - |
| Sarsa | Deepsarsa | - - |
| Off-Policy Sarsa | Offpolicysarsa | - - |
| Per (priorisierte Erfahrung Wiederholung) | PrioritedExperiencereplay | - - |
| CEM (Querentropy -Methode) | nächste | - - |
| VERSTÄRKEN | - - | - - |
| DPG (Deterministische politische Gradient) außerhalb der Politik-Schauspieler-Kritik | Schauspieler | - - |
| DDPG (Deep-DPG) -Kritik mit Zielnetzwerken | DDPG | - - |
| A3C (Asynchronous Advantage Actor-Critic) | - - | - - |
| Dyna | nächste | - - |
| Trpo | - - | - - |
| Q*(Lambda) | - - | - - |
| Nacherkennung (Lambda) | - - | - - |
| Neuronale episodische Kontrolle (NEC) | - - | - - |
| EWC (GLASTISCHE GEWICHTSCHAFTSKONsolidierung) | - - | - - |
Weitere Informationen finden Sie in der Installation und springen Sie zu QuickStart.
Zeitschild des OpenAI-Labors, Lösung von Cartpole-V0.