Pratique_rl
Un cours ouvert sur l'apprentissage du renforcement dans la nature. Enseigné sur le campus à HSE et YSDA et maintenu pour être amical avec les étudiants en ligne (anglais et russe).
Manifeste:
- Optimiser pour le curieux. Pour tous les matériaux qui ne sont pas couverts en détail, il existe des liens vers plus d'informations et des documents connexes (D.Silver / Sutton / Blogs / Whator). Les affectations auront des sections de bonus si vous souhaitez creuser plus profondément.
- Pratique d'abord. Tout ce qui est essentiel pour résoudre les problèmes d'apprentissage du renforcement mérite d'être mentionné. Nous ne nous éloignerons pas de couvrir les astuces et l'heuristique. Pour chaque idée majeure, il devrait y avoir un laboratoire qui vous fait «ressentir» un problème pratique.
- Course git. Vous connaissez un moyen d'améliorer le cours? Vous avez remarqué une faute de frappe dans une formule? Vous avez trouvé un lien utile? Rendu le code plus lisible? Fait une version pour un cadre alternatif? Tu es génial! Pull-Request It!
Informations sur le cours
FAQ: À propos du cours, thread de problèmes techniques, diapositives de cours, guide de survie des étudiants en ligne
Formulaire de rétroaction anonyme.
Environnement de cours virtuel:
- Google Colab - Set Open -> GitHub -> yandexdataschool / pracical_rl -> {Nom de la branche} et sélectionnez tout ordinateur portable que vous souhaitez.
- Installation des dépendances sur votre machine locale (recommandée).
- Alternative: cahiers azure.
Matériaux supplémentaires
Programme
Le programme est approximatif: les conférences peuvent se produire dans un ordre légèrement différent et certains sujets peuvent finir par prendre deux semaines.
Week01_intro Introduction
- Conférence: problèmes RL autour de nous. Processus de décision. Optimisation stochastique, méthode de la croix. Recherche d'espace des paramètres vs recherche d'espace d'action.
- Séminaire: Bienvenue dans l'Openai Gym. CEM tabulaire pour taxi-V0, CEM profond pour les environnements Box2D.
- Description des devoirs - Voir semaine1 / readme.md.
Méthodes basées sur la valeur de semaine02_value_
- Conférence: récompense récompensée MDP. Approche basée sur la valeur. Itération de valeur. Itération politique. La récompense réduite échoue.
- Séminaire: itération de la valeur.
- Description des devoirs - Voir semaine2 / readme.md.
Week03_Model_free Apprentissage de renforcement sans modèle
- Conférence: Q-Learning. Sarsa. Algorithmes de politique hors politique vs. Algorithmes N-Step. TD (Lambda).
- Séminaire: Qlearning vs SARSA vs valeur attendue SARSA
- Description des devoirs - Voir semaine3 / readme.md.
récap_deep_learning - récapitulatif d'apprentissage en profondeur
- Conférence: Deep Learning 101
- Séminaire: introduction à pytorch / tensorflow, classification d'image simple avec des convaints
semaine04_approx_rl approximation (profonde) rl
- Conférence: Espace d'état infini / continu. Approximation de la fonction de valeur. Conditions de convergence. Trick d'agents multiples; Expérience de la rediffusion, des réseaux cibles, du double / duel / bootstrap DQN, etc.
- Séminaire: Approximation Q-Learning avec relecture d'expérience. (Cartpole, Atari)
Exploration de la semaine05_explore
- Conférence: bandits contextuels. Échantillonnage de Thompson, UCB, UCB bayésien. Exploration dans RL basé sur des modèles, MCTS. Heuristique "profonde" pour l'exploration.
- Séminaire: Exploration bayésienne pour les bandits contextuels. UCB pour MCTS.
Méthodes de gradient de politique de la semaine06_policy_
- Conférence: motivation pour la politique, gradient de politique, astuce logdérative, méthode de renforcement / croissante, réduction de la variance (ligne de base), avantage acteur-critique (incl. Gae)
- Séminaire: renforcer, avantage acteur-critique
semaine07_seq2seq apprentissage du renforcement pour les modèles de séquence
- Conférence: problèmes avec les données séquentielles. Réseaux de neurones récurrents. Détalprop dans le temps. Vanisant et exploser les gradients. Lstm, Gru. Coupure de dégradé
- Séminaire: modèle de langue RNN au niveau des caractères
semaine08_pomdp MDP partiellement observé
- Conférence: intro pomdp. Apprentissage POMDP (agents avec mémoire). Planification POMDP (POMCP, etc.)
- Séminaire: Deep Kung-Fu et Doom avec A3C et DRQN récurrent
Week09_Policy_II Méthodes avancées basées sur les politiques
- Conférence: Trust Région Optimisation des politiques. NPO / PPO. Gradient de politique déterministe. Ddpg
- Séminaire: TRPO approximatif pour un simple contrôle des robots.
Week10_Planning basé sur un modèle RL & Co
- Conférence: RL basé sur un modèle, planification en général, apprentissage par imitation et apprentissage en renforcement inverse
- Séminaire: MCTS pour les tâches jouets
encore_another_week inverse rl et imitation apprentissage
- Tous ces trucs RL cool que vous n'apprendrez pas de ce cours :)
Personnel de cours
Matériel de cours et enseignement par: [non ordonné]
- Pavel Shvechikov - Conférences, séminaires, chèques HW, groupe de lecture
- Nikita Poutintsev - séminaires, chèques HW, organisation de notre désordre chaud
- Alexander Fritsler - Conférences, séminaires, chèques HW
- Oleg Vasilev - séminaires, chèques HW, support technique
- Dmitry Nikulin - des tonnes de correctifs, loin et large
- Mikhail Konobeev - séminaires, chèques HW
- Ivan Kharitonov - séminaires, chèques HW
- Ravil Khisamov - séminaires, chèques HW
- Anna Klepova - Hw Checkups
- Fedor Ratnikov - Admin Stuff
Contributions
- Utilisation de photos de Berkeley AI Course
- Référant massivement à CS294
- Plusieurs affectations TensorFlow par Scitator
- Beaucoup de correctifs d'Arogozhnikov
- Autres personnes formidables: voir les contributeurs GitHub
- Alexey Umnov nous a beaucoup aidés au printemps2018