Descargar pytorch a2c ppo acktr gail Gail - Código fuente de pytorch a2c ppo acktr gail

pytorch a2c ppo acktr gail

Pitón

1.0.0

Descargar

Pytorch-A2C-PPO-AacktR

Actualización (12 de abril de 2021)

PPO es excelente, pero el crítico de actores suaves puede ser mejor para muchas tareas de control continuo. Echa un vistazo a mi nuevo repositorio RL en Jax.

Utilice Hyper Parameters de este ReadMe. ¡Con otros hiper parámetros, las cosas pueden no funcionar (después de todo, es RL)!

Esta es una implementación de Pytorch de

Advantage actor Critic (A2C), una versión determinista sincrónica de A3C
Optimización de políticas proximales PPO
Método de región de confianza escalable para el aprendizaje de refuerzo profundo utilizando la aproximación a factor de Kronecker ACKTR
Aprendizaje de imitación de adversaria generativa Gail Gail

Consulte también las publicaciones de OpenAI: A2C/ACKTR y PPO para obtener más información.

Esta implementación está inspirada en las líneas de base Operai para A2C, ACKTR y PPO. Utiliza los mismos parámetros hiper y el modelo, ya que estaban bien sintonizados para los juegos de Atari.

Utilice este bibtex si desea citar este repositorio en sus publicaciones:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

Entornos compatibles (y probados) (a través de Operai Gym)

Entorno de aprendizaje de Atari
Mujoco
Pybullet (incluyendo Racecar, Minitaur y Kuka)
DeepMind Control Suite (a través de DM_Control2Gym)

Recomiendo encarecidamente Pybullet como una alternativa de código abierto gratuita a Mujoco para tareas de control continuo.

Todos los entornos se operan utilizando exactamente la misma interfaz de gimnasio. Vea sus documentos para una lista completa.

Para usar los entornos de suite de control DeepMind, establezca el indicador --env-name dm.<domain_name>.<task_name> , donde domain_name y task_name son el nombre de un dominio (por ejemplo, hopper ) y una tarea dentro de ese dominio ( stand ) desde el suite de control profundo. Consulte su repositorio y su informe técnico para obtener una lista completa de dominios y tareas disponibles. Además de establecer la tarea, la API para interactuar con el entorno es exactamente la misma que para todos los entornos de gimnasio gracias a DM_Control2Gym.

Requisitos

Python 3 (podría funcionar con Python 2, pero no lo probé)
Pytorch
Líneas de base estables3

Para instalar requisitos, siga:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

Contribuciones

Las contribuciones son muy bienvenidas. Si sabe cómo mejorar este código, abra un problema. Si desea enviar una solicitud de extracción, primero abra un problema. También vea una lista de TODO a continuación.

También estoy buscando voluntarios para ejecutar todos los experimentos en Atari y Mujoco (con múltiples semillas aleatorias).

Descargo de responsabilidad

Es extremadamente difícil reproducir resultados para los métodos de aprendizaje de refuerzo. Consulte "Aprendizaje de refuerzo profundo que importa" para obtener más información. Traté de reproducir los resultados de Operai lo más cerca posible. Sin embargo, las diferencias de especialización en el rendimiento pueden ser causadas incluso por diferencias menores en las bibliotecas de TensorFlow y Pytorch.

HACER

Mejorar este archivo ReadMe. Reorganizar imágenes.
Mejorar el rendimiento de KFAC, consulte KFAC.py para obtener más información
Ejecutar evaluación para todos los juegos y algoritmos

Visualización

Para visualizar los resultados, use visualize.ipynb .

Capacitación

Atari

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

Mujoco

Siempre intente usar la bandera --use-proper-time-limits . Se maneja correctamente trayectorias parciales (ver https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

ACKTR requiere que se realicen algunas modificaciones específicamente para Mujoco. Pero en este momento, quiero mantener este código lo más unificado posible. Por lo tanto, busco mejores formas de integrarlo en la base de código.

Disfrutar

Atari

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

Mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

Resultados

A2C

BreakoutNoFrameskip-v4

Seaquestnoframeskip-v4

Qbertnoframeskip-v4

BeamriderNoFrameskip-v4

PPO

BreakoutNoFrameskip-v4

Seaquestnoframeskip-v4

Qbertnoframeskip-v4

BeamriderNoFrameskip-v4

Acktr

BreakoutNoFrameskip-v4

Seaquestnoframeskip-v4

Qbertnoframeskip-v4

BeamriderNoFrameskip-v4

Expandir

Información adicional

Versión 1.0.0
Tipo Pitón
Fecha de actualización 2025-07-13
tamaño 8.52MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
datamule python

Pitón
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo