PPO PyTorch Download - PPO PyTorch Source Code Download

PPO PyTorch

Python

1.0.0

Télécharger

PPO-PYTORCH

Mise à jour [avril 2021]:

algorithmes discrets et continus fusionnés
Ajout de décroissance linéaire pour l'espace d'action continu action_std ; Pour rendre la formation plus stable pour des environnements complexes
ajouter différents taux d'apprentissage pour l'acteur et le critique
Les épisodes, les temps et les récompenses sont désormais connectés dans les fichiers .csv
utilise pour tracer les graphiques à partir des fichiers journaux
utilise de tester et de faire des GIF à partir de réseaux prédéfinie
PPO_colab.ipynb combinant tous les fichiers pour former / tester / tracer des graphiques / faire des GIF sur Google Colab dans un livre de note de jupyter pratique

Ouvrir `PPO_colab.ipynb` dans Google Colab

Introduction

Ce référentiel fournit une implémentation pytorch minimale de l'optimisation de la politique proximale (PPO) avec un objectif coupé pour les environnements de gymnase Openai. Il est principalement destiné aux débutants dans l'apprentissage du renforcement pour comprendre l'algorithme PPO. Il peut toujours être utilisé pour des environnements complexes, mais peut nécessiter un réglage d'hyperparamètre ou des modifications du code. Une explication concise de l'algorithme PPO peut être trouvée ici et une explication approfondie de tous les détails pour la mise en œuvre de PPO la plus performante peut être trouvée ici (toutes ne sont pas encore mises en œuvre dans ce référentiel).

Pour garder la procédure de formation simple:

Il a un écart-type constant pour la distribution d'action de sortie ( normale multivariée avec une matrice de covariance diagonale ) pour les environnements continus, c'est-à-dire qu'il s'agit d'un hyperparamètre et non d'un paramètre formable. Cependant, il est linéairement en décomposition . (ACTION_STD affecte considérablement les performances)
Il utilise une estimation simple de Monte-Carlo pour calculer les avantages et non l'estimation de l'avantage généralisé (consultez la mise en œuvre d'Openai Spinning Up pour cela).
Il s'agit d'une seule implémentation en file d'attente , c'est-à-dire qu'un seul travailleur collecte de l'expérience. L'une des anciennes fourches de ce référentiel a été modifiée pour avoir des travailleurs parallèles

Usage

Pour former un nouveau réseau: Run train.py
Pour tester un réseau pré-entraîné: Exécutez test.py
Pour tracer des graphiques à l'aide de fichiers journaux: Exécutez plot_graph.py
Pour enregistrer des images pour GIF et faire du GIF en utilisant un réseau pré-entraîné: exécutez make_gif.py
Tous les paramètres et hyperparamtres pour contrôler la formation / les tests / graphiques / GIF sont dans leur fichier .py respectif
PPO_colab.ipynb combine tous les fichiers dans un note-note de Jupyter
Toutes les hyperparamètres utilisées pour la formation (pré-étendue) sont répertoriées dans le répertoire README.md dans PPO_PORAIN

Note :

Si l'environnement fonctionne sur CPU, utilisez CPU comme appareil pour une formation plus rapide. Box-2d et Roboschool exécutés sur CPU et les former sur le dispositif GPU seront considérablement plus lents car les données seront déplacées entre le CPU et le GPU souvent

Citant

Veuillez utiliser ce bibtex si vous souhaitez citer ce référentiel dans vos publications:

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}