Tortorial de profondeur
L'intention de ces cahiers Ipython est principalement de m'aider à pratiquer et à comprendre les articles que je lis; Ainsi, j'opterai pour la lisibilité à l'efficacité dans certains cas. Tout d'abord, l'implémentation sera téléchargée, suivie d'un balisage pour expliquer chaque partie du code. Je vais attribuer un crédit pour tout code emprunté dans la section Remerciements de cette lecture.
Documents pertinents:
- Contrôle du niveau humain par l'apprentissage en renforcement profond [Publication] [Code]
- Apprentissage en plusieurs étapes (de l'apprentissage du renforcement: une introduction, chapitre 7) [Publication] [Code]
- Apprentissage en renforcement profond avec double Q-Learning [Publication] [Code]
- Architectures de réseau en duel pour l'apprentissage en renforcement profond [Publication] [Code]
- Réseaux bruyants pour l'exploration [Publication] [Code]
- Expérience hiérarchisée Replay [Publication] [Code]
- Une perspective de distribution sur l'apprentissage du renforcement [Publication] [Code]
- Rainbow: combinant des améliorations de l'apprentissage en renforcement profond [Publication] [Code]
- Apprentissage du renforcement distributionnel avec régression quantile [publication] [Code]
- Arc-en-ciel avec régression quantile [code]
- Apprentissage en QC récurrent profond pour les MDPs partiellement observables [Publication] [Code]
- Avantage acteur critique (A2C) [Publication1] [Publication2] [Code]
- Contrôle continu de grande dimension utilisant l'estimation des avantages généralisés [Publication] [Code]
- Algorithmes d'optimisation de la politique proximale [Publication] [Code]
Exigences:
- Python 3.6
- Nombant
- Salle de sport
- Pytorch 0.4.0
- Matplotlib
- Opencv
- Lignes de bases
Remerciements:
- Crédit à @Baselines pour les emballages environnementaux et l'inspiration pour le code de relecture prioritaire utilisé uniquement dans le code de développement
- Crédit à @higgsfield pour le code de traçage, le code de recuit Epsilon et l'inspiration pour l'implémentation de relecture prioritaire dans le cahier Ipython
- Crédit à @kaixhin pour la mise en œuvre de la couche linéaire bruyante factorielle et la fonction projection_distribution trouvée dans catégorique-DQN.ipynb
- Crédit à @ikostrikov pour A2C, GAE, PPO et Visdom Plotting Code Implémentation Reference