pytorch a2c ppo acktr gail Download - pytorch a2c ppo acktr gail Code source Téléchargement

pytorch a2c ppo acktr gail

Python

1.0.0

Télécharger

pytorch-a2c-pppo-backtr

Mise à jour (12 avril 2021)

Le PPO est génial, mais le critique d'acteur doux peut être meilleur pour de nombreuses tâches de contrôle continu. Veuillez consulter mon nouveau référentiel RL à Jax.

Veuillez utiliser Hyper Paramètres à partir de cette lecture. Avec d'autres paramètres hyper, les choses peuvent ne pas fonctionner (c'est RL après tout)!

Il s'agit d'une implémentation pytorch de

Advantage Actor Critic (A2C), une version déterministe synchrone d'A3C
Optimisation de la politique proximale PPO
Méthode de région de confiance évolutive pour l'apprentissage en renforcement profond à l'aide d'approximation approuvée par Kronecker ACKTR
Imitation adversaire générative apprentissage gail

Voir également les messages OpenAI: A2C / ACKTR et PPO pour plus d'informations.

Cette implémentation est inspirée par les lignes de base Openai pour A2C, ACKTR et PPO. Il utilise les mêmes paramètres hyper et le modèle car ils ont été bien réglés pour les jeux Atari.

Veuillez utiliser ce bibtex si vous souhaitez citer ce référentiel dans vos publications:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

Environnements soutenus (et testés) (via Openai Gym)

ATARI LEVORNEMENT DE LA
Mujoco
Pybullet (y compris les voitures de course, Minitaur et Kuka)
DeepMind Control Suite (via DM_Control2Gym)

Je recommande fortement Pybullet comme alternative open source gratuite à Mujoco pour les tâches de contrôle continu.

Tous les environnements sont exploités en utilisant exactement la même interface de gym. Voir leurs documentations pour une liste complète.

Pour utiliser les environnements DeepMind Control Suite, définissez le Flag --env-name dm.<domain_name>.<task_name> , où domain_name et task_name sont le nom d'un domaine (par exemple hopper ) et une tâche dans ce domaine (par stand ) de la suite de contrôle DeepMind. Reportez-vous à leur dépôt et à leur rapport technologique pour une liste complète des domaines et tâches disponibles. En plus de définir la tâche, l'API pour interagir avec l'environnement est exactement la même que pour tous les environnements de gym grâce à DM_Control2Gym.

Exigences

Python 3 (cela pourrait fonctionner avec Python 2, mais je ne l'ai pas testé)
Pytorch
Bâlines stables3

Afin d'installer les exigences, suivez:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

Contributions

Les contributions sont les bienvenues. Si vous savez comment améliorer ce code, veuillez ouvrir un problème. Si vous souhaitez soumettre une demande de traction, veuillez d'abord ouvrir un problème. Voir également une liste de TODO ci-dessous.

Je cherche également des bénévoles pour exécuter toutes les expériences sur Atari et Mujoco (avec plusieurs graines aléatoires).

Clause de non-responsabilité

Il est extrêmement difficile de reproduire des résultats pour les méthodes d'apprentissage du renforcement. Voir «Apprentissage en renforcement profond qui compte» pour plus d'informations. J'ai essayé de reproduire les résultats ouverts aussi étroitement que possible. Cependant, les différences de performance des majors peuvent être causées même par des différences mineures dans les bibliothèques Tensorflow et Pytorch.

FAIRE

Améliorez ce fichier ReadMe. Réorganiser les images.
Améliorer les performances de KFAC, voir kfac.py pour plus d'informations
Exécutez l'évaluation de tous les jeux et algorithmes

Visualisation

Afin de visualiser les résultats, utilisez visualize.ipynb .

Entraînement

Atari

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

Mujoco

Veuillez toujours essayer d'utiliser le drapeau --use-proper-time-limits . Il gère correctement les trajectoires partielles (voir https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

ACKTR nécessite que certaines modifications soient apportées spécifiquement pour Mujoco. Mais pour le moment, je veux garder ce code aussi unifié que possible. Ainsi, je vais pour de meilleures façons de l'intégrer dans la base de code.

Apprécier

Atari

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

Mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

Résultats

A2C

Breakoutnoframeskip-v4

Seiquestnoframeskip-v4

Qbertnoframeskip-v4

Beamridernoframeskip-v4

PPO

Breakoutnoframeskip-v4

Seiquestnoframeskip-v4

Qbertnoframeskip-v4

Beamridernoframeskip-v4

Acktr

Breakoutnoframeskip-v4

Seiquestnoframeskip-v4

Qbertnoframeskip-v4

Beamridernoframeskip-v4

Développer

Informations supplémentaires

Version 1.0.0
Type Python
Date de mise à jour 2025-07-13
taille 8.52MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout