Groche d'apprentissage en renforcement profond
Remarque: Pour le moment, l'exécution du code uniquement à partir du conteneur Docker (ci-dessous) est prise en charge. Docker permet de créer un environnement unique qui est plus susceptible de travailler sur tous les systèmes. Fondamentalement, j'installe et configure tous les packages pour vous, à l'exception de Docker lui-même, et vous exécutez simplement le code sur un environnement testé.
Pour installer Docker, je recommande une recherche Web pour "Installation de Docker sur <Votre OS ici>". Pour exécuter le code sur un GPU, vous devez en outre installer Nvidia-Docker. Nvidia Docker permet d'utiliser les GPU d'un hôte à l'intérieur des conteneurs Docker. Une fois que Docker (et Nvidia-Docker Si vous utilisez un GPU) installé, suivez les trois étapes ci-dessous.
Exécution du code
- Cloner ce repo:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - Tirez l'image GDRL avec:
docker pull mimoralea/gdrl:v0.14 - Tournez un récipient:
- Sur Mac ou Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Sur Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Remarque: utilisez
nvidia-docker ou ajoutez --gpus all après --rm à la commande, si vous utilisez un GPU.
- Ouvrez un navigateur et accédez à l'URL indiquée dans le terminal (probablement être: http: // localhost: 8888). Le mot de passe est:
gdrl
À propos du livre
Site Web du livre
https://www.manning.com/books/grokking-deep-reinforcement-learning
Tableau de contenu
- Introduction à l'apprentissage en renforcement profond
- Fondements mathématiques de l'apprentissage du renforcement
- Équilibrer les objectifs immédiats et à long terme
- Équilibrer le rassemblement et l'utilisation des informations
- Évaluer les comportements des agents
- Améliorer les comportements des agents
- Atteindre les objectifs plus efficacement et efficacement
- Introduction à l'apprentissage en renforcement profond basé sur la valeur
- Méthodes plus basées sur la valeur stable
- Méthodes basées sur la valeur économe en échantillons
- Méthodes de troisième cycle et acteur critique
- Méthodes avancées acteurs-critiques
- Vers l'intelligence générale artificielle
Tableau détaillé du contenu
1. Introduction à l'apprentissage en renforcement profond
- (Livebook)
- (Pas de cahier)
2. Fondations mathématiques de l'apprentissage du renforcement
- (Livebook)
- (Carnet de notes)
- Implémentations de plusieurs MDP:
- Marche de bandit
- Marche glissante bandit
- Slipery Walk trois
- Promenade aléatoire
- Russell et Norvig's Gridworld d'Aima
- Frozenlake
- Frozenlake8x8
3. Équilibrer les objectifs immédiats et à long terme
- (Livebook)
- (Carnet de notes)
- Implémentations de méthodes pour trouver des politiques optimales:
- Évaluation des politiques
- Amélioration des politiques
- Itération politique
- Itération de valeur
4. Équilibrer le rassemblement et l'utilisation des informations
- (Livebook)
- (Carnet de notes)
- Mise en œuvre des stratégies d'exploration pour les problèmes de bandit:
- Aléatoire
- Cupide
- E-greedy
- E-greedy avec epsilon en décomposition linéaire
- E-Greedy avec Epsilon en décomposition exponentielle
- Initialisation optimiste
- Maxa
- Confiance supérieure liée
- Bayésien
5. Évaluation des comportements des agents
- (Livebook)
- (Carnet de notes)
- Mise en œuvre d'algorithmes qui résolvent le problème de prédiction (estimation de la politique):
- Prédiction de la première visite à la politique de la politique
- Prédiction de la politique de la politique sur la politique
- Prédiction de différence temporelle (TD)
- Prédiction de différence temporelle en N (TD N-Step)
- TD (λ)
6. Améliorer les comportements des agents
- (Livebook)
- (Carnet de notes)
- Implémentation d'algorithmes qui résolvent le problème de contrôle (amélioration des politiques):
- Contrôle de la première visite à la politique Monte-Carlo
- Contrôle de monte-car-car-carré
- Contrôle TD sur politique: SARSA
- Contrôle TD hors politique: Q-Learning
- Double-Learning
7. atteindre les objectifs plus efficacement et efficacement
- (Livebook)
- (Carnet de notes)
- Mise en œuvre d'algorithmes d'apprentissage de renforcement plus efficaces et plus efficaces:
- Sarsa (λ) par le remplacement des traces
- SARSA (λ) avec des traces d'accumulation
- Q (λ) par le remplacement des traces
- Q (λ) avec des traces d'accumulation
- Dyna-Q
- Échantillonnage de trajectoire
8. Introduction à l'apprentissage en renforcement profond basé sur la valeur
- (Livebook)
- (Carnet de notes)
- Mise en œuvre d'une base d'apprentissage en renforcement profond basé sur la valeur:
- Itteration Q-ajustée neuronale (NFQ)
9. Méthodes plus stables basées sur la valeur
- (Livebook)
- (Carnet de notes)
- Mise en œuvre de méthodes d'apprentissage en renforcement profond basées sur la valeur "classiques":
- Deep QNetworks (DQN)
- Double Networks Q Q (DDQN)
10. Méthodes basées sur la valeur économe en échantillons
- (Livebook)
- (Carnet de notes)
- Mise en œuvre des principales améliorations des méthodes d'apprentissage en renforcement profond basées sur la valeur:
- Duel Deep QNetworks (Duel DQN)
- REPLACE D'EXPÉRIENCE PRIMÉTÉ (PER)
11. Méthodes de troisième cycle et acteur critique
- (Livebook)
- (Carnet de notes)
- Mise en œuvre des méthodes d'apprentissage en renforcement profond basées sur les politiques et acteur-critiques:
- Gradiments politiques sans fonction de valeur et rendement de Monte-Carlo (renforcement)
- Gradiments politiques avec fonction de valeur Formé de base avec les rendements de Monte-Carlo (VPG)
- Avantage asynchrone acteur-critique (A3C)
- Estimation de l'avantage généralisé (GAE)
- [Synchrone] Avantage acteur-critique (A2C)
12. Méthodes avancées acteurs-critiques
- (Livebook)
- (Carnet de notes)
- Mise en œuvre de méthodes avancées d'acteur-critique:
- Gradient de politique déterministe profond (DDPG)
- Twin a retardé le gradient de politique déterministe profonde (TD3)
- Acteur doux-critique (sac)
- Optimisation de la politique proximale (PPO)
13. Vers l'intelligence générale artificielle
- (Livebook)
- (Pas de cahier)