Download de DeepRL - Download de código fonte DeepRL

DeepRL

Pitão

1.0.0

Baixar

Deeprl

Se você tiver alguma dúvida ou deseja relatar um bug, abra um problema em vez de me enviar um e -mail diretamente.

Implementação modularizada de algoritmos populares de RL profundo em Pytorch.
SUFIR FÁCIL entre tarefas de brinquedos e jogos desafiadores.

Algoritmos implementados:

(Dupla/duelo/priorizado) Deep Q-Learning (DQN)
DQN categórico (C51)
DQN de regressão quantil (QR-DQN)
(Contínuo/discreto) Crítico de ator síncrono de vantagem (A2C)
N-learning síncrono N-STEP (DQN n-EtaP)
Gradiente de política determinística profunda (DDPG)
Otimização de política proximal (PPO)
A Arquitetura Crítica da Opção (OC)
DDPG tardio entrelaçado (TD3)
Off-PAC-KL/truncateTD/diferencialgq/mvpi/reverserl/COF-Pac/gradientDice/Bi-RES-DDPG/DAC/Geoff-Pac/Quotas/ACE

O agente DQN, assim como C51 e QR-DQN, possui um ator assíncrono para geração de dados e um buffer de repetição assíncrono para transferir dados para a GPU. Usando 1 threads RTX 2080 Ti e 3, o agente DQN é executado por 10m de etapas (quadros de 40m, atualizações de gradiente de 2,5 m) para fugir em 6 horas.

Dependência

Pytorch v1.5.1
Consulte Dockerfile e requirements.txt para obter mais detalhes

Uso

examples.py contém exemplos para todos os algoritmos implementados.
Dockerfile contém o ambiente para gerar as curvas abaixo.
Por favor, use este bibtex se você quiser citar este repositório

 @misc{deeprl,
  author = {Zhang, Shangtong},
  title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}

Curvas (Commit `9e811e` )

Breakoutnoframeskip-v4 (1 corrida)

Mujoco

Desempenho de avaliação DDPG/TD3. (5 corridas, média + erro padrão)
PPO desempenho online. (5 corridas, média + erro padrão, suavizado por uma janela do tamanho 10)

Referências

Controle de nível humano através do aprendizado de reforço profundo
Métodos assíncronos para aprendizado de reforço profundo
Aprendizagem de reforço profundo com Q-learning duplo
Arquiteturas de rede de duelo para aprendizado de reforço profundo
Brincando Atari com aprendizado profundo de reforço
Hogwild!: Uma abordagem livre de bloqueio para paralelando descida de gradiente estocástico
Algoritmos determinísticos de gradiente de políticas
Controle contínuo com aprendizado de reforço profundo
Controle contínuo de alta dimensão usando estimativa de vantagem generalizada
Arquitetura de recompensa híbrida para aprendizado de reforço
Otimização da política da região de confiança
Algoritmos de otimização de políticas proximais
Surgimento de comportamentos de locomoção em ambientes ricos
Previsão de vídeo-condicional de ação usando redes profundas em jogos Atari
Uma perspectiva distributiva sobre o aprendizado de reforço
Aprendizagem de reforço distributivo com regressão quantil
A arquitetura de opção-crítica
Erro de aproximação da função de abordagem nos métodos de ator-crítico
Alguns hiper-parâmetros são de DeepMind Control Suite, Openai Baselines e Ilya Kostrikov

Código dos meus papéis

Eles estão localizados em outras filiais deste repositório e parecem ser bons exemplos para usar esta base de código.

Otimização global e análise de amostras finitas de ator de política softmax Soft-Poly Critic sob incompatibilidade de distribuição estatal [Off-PAC-KL]
Métodos de diferença temporal enfática truncada para previsão e controle [truncateTetd]
Uma visão mais profunda da incompatibilidade de desconto em algoritmos atores-críticos [descontos]
Quebrando a tríade mortal com uma rede de destino [TargetNetwork]
Avaliação de políticas fora da política de recompensa média com aproximação de função [diferencialgq]
Iteração da política de variância média para aprendizado de reforço avesso ao risco [MVPI]
Aprendendo conhecimento retrospectivo com aprendizado de reforço reverso [ReverSerl]
Comprovadamente o ator de política de duas vezes convergente com a aproximação da função [COF-PAC, TD3-RANDOM]
GradienteDice: Repensando a estimativa offline generalizada de valores estacionários [gradienteDice]
Aprendizagem de reforço residual profundo [BI-RES-DDPG]
Ator de política generalizado crítico [Geoff-PAC, TD3-Random]
DAC: A Arquitetura Crítica de Ator Duplo para Opções de Aprendizagem [DAC]
Quotas: A Arquitetura de Opção Quantil para Aprendizagem de Reforço [Discreto de Quotas, Contínuo de Cotas]
ACE: um algoritmo de conjunto de atores para controle contínuo com pesquisa de árvores [ACE]

Expandir

Informações adicionais