Descarga de DeepRL - Descarga del código fuente DeepRL

DeepRL

Pitón

1.0.0

Descargar

Profundo

Si tiene alguna pregunta o desea informar un error, abra un problema en lugar de enviarme un correo electrónico directamente.

Implementación modularizada de algoritmos RL profundos populares en Pytorch.
Cambio fácil entre tareas de juguete y juegos desafiantes.

Algoritmos implementados:

(Doble/Dueling/Priorizado) Profo Q-learning (DQN)
DQN categórico (C51)
Regresión cuantil dqn (qr-dqn)
(Continuo/discreto) Critic de actor de ventaja sincrónica (A2C)
Q-learning sincrónico N-Step (N-Step DQN)
Gradiente de política determinista profunda (DDPG)
Optimización de políticas proximales (PPO)
La arquitectura de opción-crítica (OC)
DDPG retrasado de TD3 (TD3)
Off-PAC-KL/Truncatedetd/Diferialgq/MVPI/Reverserl/COF-PAC/Gradientdice/Bi-Res-DDPG/DAC/Geoff-Pac/Cuota/ACE

El agente DQN, así como C51 y QR-DQN, tiene un actor asincrónico para la generación de datos y un búfer de reproducción asíncrono para transferir datos a GPU. Usando 1 RTX 2080 TI y 3 hilos, el agente DQN se ejecuta para pasos de 10 m (40 m cuadros, actualizaciones de gradiente de 2.5 m) para una ruptura en 6 horas.

Dependencia

Pytorch v1.5.1
Consulte Dockerfile y requirements.txt para más detalles

Uso

examples.py contiene ejemplos para todos los algoritmos implementados.
Dockerfile contiene el entorno para generar las curvas a continuación.
Utilice este bibtex si desea citar este repositorio

 @misc{deeprl,
  author = {Zhang, Shangtong},
  title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}

Curvas (cometer `9e811e` )

BreakoutNoFrameskip-v4 (1 ejecución)

Mujoco

Rendimiento de evaluación DDPG/TD3. (5 ejecuciones, media + error estándar)
PPO Rendimiento en línea. (5 ejecuciones, media + error estándar, suavizado por una ventana de tamaño 10)

Referencias

Control de nivel humano a través del aprendizaje de refuerzo profundo
Métodos asincrónicos para el aprendizaje de refuerzo profundo
Aprendizaje de refuerzo profundo con doble Q-learning
Arquitecturas de red de duelo para el aprendizaje de refuerzo profundo
Jugar a Atari con un profundo aprendizaje de refuerzo
¡Hogwild!: Un enfoque sin bloqueo para paralelizar el descenso de gradiente estocástico
Algoritmos de gradiente de política determinista
Control continuo con aprendizaje de refuerzo profundo
Control continuo de alta dimensión utilizando una estimación de ventaja generalizada
Arquitectura de recompensa híbrida para el aprendizaje de refuerzo
Optimización de políticas de la región de confianza
Algoritmos de optimización de políticas proximales
Aparición de comportamientos de locomoción en entornos ricos
Predicción de video condicional de acción utilizando redes profundas en los juegos de Atari
Una perspectiva de distribución sobre el aprendizaje de refuerzo
Aprendizaje de refuerzo de distribución con regresión cuantil
La arquitectura de opción-crítica
Error de aproximación de la función de direccionamiento en los métodos críticos del actor
Algunos hiper-parametros son de DeepMind Control Suite, Operai Baslines e Ilya Kostrikov

Código de mis papeles

Están ubicados en otras ramas de este repositorio y parecen ser buenos ejemplos para usar esta base de código.

Optimalidad global y análisis de muestra finita del crítico de actores fuera de política SoftMax bajo el desajuste de distribución estatal [Off-PAC-KL]
Métodos de diferencia temporal enfática truncada para la predicción y control [truncedetd]
Una mirada más profunda al descuento de desajuste en algoritmos de actor-crítico [descuento]
Romper la tríada mortal con una red de destino [TargetNetwork]
Evaluación de la política fuera de la política de recompensa promedio con aproximación de función [diferencialgq]
Iteración de la política de varianza media para el aprendizaje de refuerzo de aversión a riesgo [MVPI]
Aprendizaje de conocimiento retrospectivo con aprendizaje de refuerzo inverso [Reverserl]
Provisionablemente convergente actor de dos tiempos descuidados críticos con aproximación de función [COF-PAC, TD3-Random]
Gradientdice: Repensar la estimación generalizada fuera de línea de valores estacionarios [gradiente]
Aprendizaje de refuerzo residual profundo [bi-res-ddpg]
Actor Generalizado Off Policy Critic [Geoff-Pac, TD3-Random]
DAC: La arquitectura de doble actor-crítica para las opciones de aprendizaje [DAC]
Cuota: la arquitectura de opción de cuantil para el aprendizaje de refuerzo [cuota discreta, continua de cuotas]
ACE: un algoritmo de conjunto de actores para el control continuo con la búsqueda de árboles [as]

Expandir

Información adicional