Aviso: use la próxima versión, SLM-LAB.
Documentación de laboratorio de Openai
Un marco de experimentación para el aprendizaje de refuerzo usando el gimnasio Operai, Tensorflow y Keras.
Operai Lab se crea para hacer el aprendizaje de refuerzo (RL) como la ciencia: teorizar, experimentar . Proporciona una interfaz fácil para Operai Gym y Keras, con un marco automatizado de experimentación y evaluación.
Con Operai Lab, podríamos centrarnos en investigar los elementos esenciales del aprendizaje de refuerzo, como el algoritmo, la política, la memoria y el ajuste de los parámetros. Nos permite construir agentes de manera eficiente utilizando componentes existentes con las implementaciones a partir de ideas de investigación. Luego podríamos probar las hipótesis de investigación sistemáticamente ejecutando experimentos.
Lea más sobre los problemas de investigación que aborda el laboratorio en las motivaciones. En última instancia, el laboratorio es un marco generalizado para hacer un aprendizaje de refuerzo, agnóstico del gimnasio Operai y Keras. Por ejemplo, las implementaciones basadas en Pytorch están en la hoja de ruta.
Una lista de los algoritmos Core RL implementados/planificados.
Para ver sus puntajes contra entornos de gimnasio Operai, vaya a la matriz de fitness .
| algoritmo | implementación | puntaje eval (pendiente) |
|---|---|---|
| Dqn | Dqn | - |
| Doble dqn | Doubledqn | - |
| Duelo DQN | - | - |
| Sarsa | Profundo | - |
| Sarsa sin política | OffpolicySarsa | - |
| Por (repetición de experiencia priorizada) | PriorizedExperiencePlay | - |
| CEM (método de entropía cruzada) | próximo | - |
| REFORZARSE | - | - |
| DPG (Gradiente de Política Determinista) Actor Off Policy Critic | Actorcrítico | - |
| DDPG (Deep-DPG) Actor-Critic con redes de destino | Ddpg | - |
| A3C (Actor-Actor-Criticic de ventaja asíncrona) | - | - |
| Dyna | próximo | - |
| Trpo | - | - |
| Q*(Lambda) | - | - |
| Retroceso (Lambda) | - | - |
| Control episódico neural (NEC) | - | - |
| EWC (consolidación de peso elástico) | - | - |
A continuación, vea la instalación y salte a QuickStart.
Tiempo de tiempo de Operai Lab, Resolviendo Cartpole-V0.