AVISO: Use a próxima versão, SLM-LAB.
Documentação do Laboratório Open
Uma estrutura de experimentação para o aprendizado de reforço usando a academia, o tensorflow e as Keras.
O Openai Lab é criado para fazer o aprendizado de reforço (RL) como a ciência - teorizar, experimentar . Ele fornece uma interface fácil para a academia e as keras do OpenAI, com uma estrutura automatizada de experimentação e avaliação.
Com o OpenAI Lab, poderíamos nos concentrar em pesquisar os elementos essenciais do aprendizado de reforço, como algoritmo, política, memória e ajuste de parâmetros. Ele nos permite criar agentes com eficiência usando componentes existentes com as implementações de idéias de pesquisa. Poderíamos então testar as hipóteses de pesquisa sistematicamente executando experimentos.
Leia mais sobre os problemas de pesquisa que o laboratório aborda nas motivações. Por fim, o laboratório é uma estrutura generalizada para o aprendizado de reforço, agnóstico da academia e Keras. Por exemplo, implementações baseadas em Pytorch estão no roteiro.
Uma lista dos algoritmos RL centrais implementados/planejados.
Para ver suas pontuações contra os ambientes de ginástica do Openai, vá para a matriz de fitness .
| algoritmo | implementação | Pontuação de avaliação (pendente) |
|---|---|---|
| Dqn | Dqn | - |
| Duplo dqn | DoubledQn | - |
| Duelo dqn | - | - |
| SARSA | Deepsarsa | - |
| Sarsa fora da política | Offpolicysarsa | - |
| Por (reprodução de experiência priorizada) | PriorizedExperiencerplay | - |
| CEM (método de entropia cruzada) | próximo | - |
| REFORÇAR | - | - |
| DPG (gradiente de política determinística) ator de política-crítico | Atorcrítico | - |
| DDPG (Deep-DPG) ator-crítico com redes de destino | Ddpg | - |
| A3C (vantagem assíncrona ator-crítica) | - | - |
| Dyna | próximo | - |
| TRPO | - | - |
| Q*(Lambda) | - | - |
| Retrace (Lambda) | - | - |
| Controle episódico neural (NEC) | - | - |
| EWC (consolidação de peso elástico) | - | - |
Em seguida, consulte a instalação e pule para o QuickStart.
Timelaps of Openai Lab, Solução de Cartpole-V0.