Deeprl
Se você tiver alguma dúvida ou deseja relatar um bug, abra um problema em vez de me enviar um e -mail diretamente.
Implementação modularizada de algoritmos populares de RL profundo em Pytorch.
SUFIR FÁCIL entre tarefas de brinquedos e jogos desafiadores.
Algoritmos implementados:
- (Dupla/duelo/priorizado) Deep Q-Learning (DQN)
- DQN categórico (C51)
- DQN de regressão quantil (QR-DQN)
- (Contínuo/discreto) Crítico de ator síncrono de vantagem (A2C)
- N-learning síncrono N-STEP (DQN n-EtaP)
- Gradiente de política determinística profunda (DDPG)
- Otimização de política proximal (PPO)
- A Arquitetura Crítica da Opção (OC)
- DDPG tardio entrelaçado (TD3)
- Off-PAC-KL/truncateTD/diferencialgq/mvpi/reverserl/COF-Pac/gradientDice/Bi-RES-DDPG/DAC/Geoff-Pac/Quotas/ACE
O agente DQN, assim como C51 e QR-DQN, possui um ator assíncrono para geração de dados e um buffer de repetição assíncrono para transferir dados para a GPU. Usando 1 threads RTX 2080 Ti e 3, o agente DQN é executado por 10m de etapas (quadros de 40m, atualizações de gradiente de 2,5 m) para fugir em 6 horas.
Dependência
- Pytorch v1.5.1
- Consulte
Dockerfile e requirements.txt para obter mais detalhes
Uso
examples.py contém exemplos para todos os algoritmos implementados.
Dockerfile contém o ambiente para gerar as curvas abaixo.
Por favor, use este bibtex se você quiser citar este repositório
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
Curvas (Commit 9e811e )
Breakoutnoframeskip-v4 (1 corrida)
Mujoco
Desempenho de avaliação DDPG/TD3. (5 corridas, média + erro padrão)
PPO desempenho online. (5 corridas, média + erro padrão, suavizado por uma janela do tamanho 10)
Referências
- Controle de nível humano através do aprendizado de reforço profundo
- Métodos assíncronos para aprendizado de reforço profundo
- Aprendizagem de reforço profundo com Q-learning duplo
- Arquiteturas de rede de duelo para aprendizado de reforço profundo
- Brincando Atari com aprendizado profundo de reforço
- Hogwild!: Uma abordagem livre de bloqueio para paralelando descida de gradiente estocástico
- Algoritmos determinísticos de gradiente de políticas
- Controle contínuo com aprendizado de reforço profundo
- Controle contínuo de alta dimensão usando estimativa de vantagem generalizada
- Arquitetura de recompensa híbrida para aprendizado de reforço
- Otimização da política da região de confiança
- Algoritmos de otimização de políticas proximais
- Surgimento de comportamentos de locomoção em ambientes ricos
- Previsão de vídeo-condicional de ação usando redes profundas em jogos Atari
- Uma perspectiva distributiva sobre o aprendizado de reforço
- Aprendizagem de reforço distributivo com regressão quantil
- A arquitetura de opção-crítica
- Erro de aproximação da função de abordagem nos métodos de ator-crítico
- Alguns hiper-parâmetros são de DeepMind Control Suite, Openai Baselines e Ilya Kostrikov
Código dos meus papéis
Eles estão localizados em outras filiais deste repositório e parecem ser bons exemplos para usar esta base de código.
- Otimização global e análise de amostras finitas de ator de política softmax Soft-Poly Critic sob incompatibilidade de distribuição estatal [Off-PAC-KL]
- Métodos de diferença temporal enfática truncada para previsão e controle [truncateTetd]
- Uma visão mais profunda da incompatibilidade de desconto em algoritmos atores-críticos [descontos]
- Quebrando a tríade mortal com uma rede de destino [TargetNetwork]
- Avaliação de políticas fora da política de recompensa média com aproximação de função [diferencialgq]
- Iteração da política de variância média para aprendizado de reforço avesso ao risco [MVPI]
- Aprendendo conhecimento retrospectivo com aprendizado de reforço reverso [ReverSerl]
- Comprovadamente o ator de política de duas vezes convergente com a aproximação da função [COF-PAC, TD3-RANDOM]
- GradienteDice: Repensando a estimativa offline generalizada de valores estacionários [gradienteDice]
- Aprendizagem de reforço residual profundo [BI-RES-DDPG]
- Ator de política generalizado crítico [Geoff-PAC, TD3-Random]
- DAC: A Arquitetura Crítica de Ator Duplo para Opções de Aprendizagem [DAC]
- Quotas: A Arquitetura de Opção Quantil para Aprendizagem de Reforço [Discreto de Quotas, Contínuo de Cotas]
- ACE: um algoritmo de conjunto de atores para controle contínuo com pesquisa de árvores [ACE]