Profundo
Si tiene alguna pregunta o desea informar un error, abra un problema en lugar de enviarme un correo electrónico directamente.
Implementación modularizada de algoritmos RL profundos populares en Pytorch.
Cambio fácil entre tareas de juguete y juegos desafiantes.
Algoritmos implementados:
- (Doble/Dueling/Priorizado) Profo Q-learning (DQN)
- DQN categórico (C51)
- Regresión cuantil dqn (qr-dqn)
- (Continuo/discreto) Critic de actor de ventaja sincrónica (A2C)
- Q-learning sincrónico N-Step (N-Step DQN)
- Gradiente de política determinista profunda (DDPG)
- Optimización de políticas proximales (PPO)
- La arquitectura de opción-crítica (OC)
- DDPG retrasado de TD3 (TD3)
- Off-PAC-KL/Truncatedetd/Diferialgq/MVPI/Reverserl/COF-PAC/Gradientdice/Bi-Res-DDPG/DAC/Geoff-Pac/Cuota/ACE
El agente DQN, así como C51 y QR-DQN, tiene un actor asincrónico para la generación de datos y un búfer de reproducción asíncrono para transferir datos a GPU. Usando 1 RTX 2080 TI y 3 hilos, el agente DQN se ejecuta para pasos de 10 m (40 m cuadros, actualizaciones de gradiente de 2.5 m) para una ruptura en 6 horas.
Dependencia
- Pytorch v1.5.1
- Consulte
Dockerfile y requirements.txt para más detalles
Uso
examples.py contiene ejemplos para todos los algoritmos implementados.
Dockerfile contiene el entorno para generar las curvas a continuación.
Utilice este bibtex si desea citar este repositorio
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
Curvas (cometer 9e811e )
BreakoutNoFrameskip-v4 (1 ejecución)
Mujoco
Rendimiento de evaluación DDPG/TD3. (5 ejecuciones, media + error estándar)
PPO Rendimiento en línea. (5 ejecuciones, media + error estándar, suavizado por una ventana de tamaño 10)
Referencias
- Control de nivel humano a través del aprendizaje de refuerzo profundo
- Métodos asincrónicos para el aprendizaje de refuerzo profundo
- Aprendizaje de refuerzo profundo con doble Q-learning
- Arquitecturas de red de duelo para el aprendizaje de refuerzo profundo
- Jugar a Atari con un profundo aprendizaje de refuerzo
- ¡Hogwild!: Un enfoque sin bloqueo para paralelizar el descenso de gradiente estocástico
- Algoritmos de gradiente de política determinista
- Control continuo con aprendizaje de refuerzo profundo
- Control continuo de alta dimensión utilizando una estimación de ventaja generalizada
- Arquitectura de recompensa híbrida para el aprendizaje de refuerzo
- Optimización de políticas de la región de confianza
- Algoritmos de optimización de políticas proximales
- Aparición de comportamientos de locomoción en entornos ricos
- Predicción de video condicional de acción utilizando redes profundas en los juegos de Atari
- Una perspectiva de distribución sobre el aprendizaje de refuerzo
- Aprendizaje de refuerzo de distribución con regresión cuantil
- La arquitectura de opción-crítica
- Error de aproximación de la función de direccionamiento en los métodos críticos del actor
- Algunos hiper-parametros son de DeepMind Control Suite, Operai Baslines e Ilya Kostrikov
Código de mis papeles
Están ubicados en otras ramas de este repositorio y parecen ser buenos ejemplos para usar esta base de código.
- Optimalidad global y análisis de muestra finita del crítico de actores fuera de política SoftMax bajo el desajuste de distribución estatal [Off-PAC-KL]
- Métodos de diferencia temporal enfática truncada para la predicción y control [truncedetd]
- Una mirada más profunda al descuento de desajuste en algoritmos de actor-crítico [descuento]
- Romper la tríada mortal con una red de destino [TargetNetwork]
- Evaluación de la política fuera de la política de recompensa promedio con aproximación de función [diferencialgq]
- Iteración de la política de varianza media para el aprendizaje de refuerzo de aversión a riesgo [MVPI]
- Aprendizaje de conocimiento retrospectivo con aprendizaje de refuerzo inverso [Reverserl]
- Provisionablemente convergente actor de dos tiempos descuidados críticos con aproximación de función [COF-PAC, TD3-Random]
- Gradientdice: Repensar la estimación generalizada fuera de línea de valores estacionarios [gradiente]
- Aprendizaje de refuerzo residual profundo [bi-res-ddpg]
- Actor Generalizado Off Policy Critic [Geoff-Pac, TD3-Random]
- DAC: La arquitectura de doble actor-crítica para las opciones de aprendizaje [DAC]
- Cuota: la arquitectura de opción de cuantil para el aprendizaje de refuerzo [cuota discreta, continua de cuotas]
- ACE: un algoritmo de conjunto de actores para el control continuo con la búsqueda de árboles [as]