Deeprl
Si vous avez une question ou si vous souhaitez signaler un bogue, veuillez ouvrir un problème au lieu de m'envoyer directement un e-mail.
Implémentation modularisée des algorithmes RL profonds populaires dans Pytorch.
Changement facile entre les tâches jouets et les jeux difficiles.
Algorithmes implémentés:
- (Double / duel / hiérarchisé) Learning Deep (DQN)
- DQN catégorique (C51)
- Régression quantile DQN (QR-DQN)
- (Continu / discret) Avantage synchrone Critique acteur (A2C)
- Learning N-Step Synchrone (DQN N-Step)
- Gradient de politique déterministe profond (DDPG)
- Optimisation de la politique proximale (PPO)
- L'architecture critique d'option (OC)
- DDPG retardé en retard (TD3)
- OFF-PAC-KL / TRONCEDETD / MONTAGEM
L'agent DQN, ainsi que C51 et QR-DQN, ont un acteur asynchrone pour la génération de données et un tampon de relecture asynchrone pour transférer des données vers GPU. En utilisant 1 threads RTX 2080 Ti et 3, l'agent DQN s'exécute pour 10 m de pas (cadres de 40 m, mises à jour de gradient de 2,5 m) pour une rupture dans les 6 heures.
Dépendance
- Pytorch v1.5.1
- Voir
Dockerfile et requirements.txt pour plus de détails
Usage
examples.py contient des exemples pour tous les algorithmes implémentés.
Dockerfile contient l'environnement pour générer les courbes ci-dessous.
Veuillez utiliser ce bibtex si vous souhaitez citer ce repo
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
Courbes (commit 9e811e )
BreakoutnoframesKip-V4 (1 Run)
Mujoco
Performance d'évaluation DDPG / TD3. (5 courses, moyenne + erreur standard)
PPO Performance en ligne. (5 courses, moyenne + erreur standard, lissée par une fenêtre de taille 10)
Références
- Contrôle du niveau humain par l'apprentissage en renforcement profond
- Méthodes asynchrones pour l'apprentissage du renforcement profond
- Apprentissage en renforcement profond avec double Q-Learning
- Architectures de réseau en duel pour l'apprentissage en renforcement profond
- Jouer à Atari avec un apprentissage en renforcement profond
- Hogwild !: Une approche sans serrure pour paralléliser la descente de gradient stochastique
- Algorithmes de gradient de politique déterministe
- Contrôle continu avec un apprentissage en renforcement profond
- Contrôle continu de grande dimension en utilisant une estimation avantageuse généralisée
- Architecture de récompense hybride pour l'apprentissage du renforcement
- Optimisation de la politique de la région de confiance
- Algorithmes d'optimisation de la politique proximale
- Émergence de comportements de locomotion dans des environnements riches
- Prédiction vidéo conditionnelle à l'aide de réseaux profonds dans les jeux Atari
- Une perspective de distribution sur l'apprentissage du renforcement
- Apprentissage du renforcement distributionnel avec régression quantile
- L'architecture critique d'option
- Adressant l'erreur d'approximation de la fonction dans les méthodes acteurs-critiques
- Certains hyper-paramètres proviennent de DeepMind Control Suite, Openai Bases et Ilya Kostrikov
Code de mes papiers
Ils sont situés dans d'autres branches de ce dépôt et semblent être de bons exemples pour utiliser cette base de code.
- Optimalité globale et analyse d'échantillons finis de SoftMax Off-Policy Actor Critic dans le cadre de l'inadéquation de la distribution de l'État [OFF-PAC-KL]
- Méthodes de différence temporelle emphatique tronquées pour la prédiction et le contrôle [tronquéd]
- Un aperçu plus approfondi de l'inadéquation de réduction dans les algorithmes acteurs-critiques [réduction]
- Briser la triade mortelle avec un réseau cible [TargetNetwork]
- Évaluation des politiques hors polissage moyenne-récompense avec approximation de la fonction [différentielgq]
- Itération de politique de variance moyenne pour l'apprentissage par le renforcement des risques [MVPI]
- Apprentissage des connaissances rétrospectives avec apprentissage en renforcement inversé [Reverserl]
- Critique acteur hors politique convergent à deux reprises avec approximation de la fonction [COF-PAC, TD3-Random]
- GradientDice: Repenser l'estimation hors ligne généralisée des valeurs stationnaires [GradientDice]
- Apprentissage en renforcement résiduel profond [Bi-Res-DDPG]
- Acteur-critique généralisé hors politique [Geoff-Pac, TD3-Random]
- DAC: L'architecture à double acteur-critique pour les options d'apprentissage [DAC]
- Quota: L'architecture d'option quantile pour l'apprentissage en renforcement [quota-discrete, quota-continu]
- ACE: un algorithme d'ensemble d'acteur pour un contrôle continu avec la recherche d'arbre [ACE]