Téléchargement Practical_RL du code source pratique du code source Practical

Practical_RL

Autre code source

Spring 2020

Télécharger

Pratique_rl

Un cours ouvert sur l'apprentissage du renforcement dans la nature. Enseigné sur le campus à HSE et YSDA et maintenu pour être amical avec les étudiants en ligne (anglais et russe).

Manifeste:

Optimiser pour le curieux. Pour tous les matériaux qui ne sont pas couverts en détail, il existe des liens vers plus d'informations et des documents connexes (D.Silver / Sutton / Blogs / Whator). Les affectations auront des sections de bonus si vous souhaitez creuser plus profondément.
Pratique d'abord. Tout ce qui est essentiel pour résoudre les problèmes d'apprentissage du renforcement mérite d'être mentionné. Nous ne nous éloignerons pas de couvrir les astuces et l'heuristique. Pour chaque idée majeure, il devrait y avoir un laboratoire qui vous fait «ressentir» un problème pratique.
Course git. Vous connaissez un moyen d'améliorer le cours? Vous avez remarqué une faute de frappe dans une formule? Vous avez trouvé un lien utile? Rendu le code plus lisible? Fait une version pour un cadre alternatif? Tu es génial! Pull-Request It!

Informations sur le cours

FAQ: À propos du cours, thread de problèmes techniques, diapositives de cours, guide de survie des étudiants en ligne
Formulaire de rétroaction anonyme.
Environnement de cours virtuel:
- Google Colab - Set Open -> GitHub -> yandexdataschool / pracical_rl -> {Nom de la branche} et sélectionnez tout ordinateur portable que vous souhaitez.
- Installation des dépendances sur votre machine locale (recommandée).
- Alternative: cahiers azure.

Matériaux supplémentaires

Groupe de lecture RL

Programme

Le programme est approximatif: les conférences peuvent se produire dans un ordre légèrement différent et certains sujets peuvent finir par prendre deux semaines.

Week01_intro Introduction
- Conférence: problèmes RL autour de nous. Processus de décision. Optimisation stochastique, méthode de la croix. Recherche d'espace des paramètres vs recherche d'espace d'action.
- Séminaire: Bienvenue dans l'Openai Gym. CEM tabulaire pour taxi-V0, CEM profond pour les environnements Box2D.
- Description des devoirs - Voir semaine1 / readme.md.
Méthodes basées sur la valeur de semaine02_value_
- Conférence: récompense récompensée MDP. Approche basée sur la valeur. Itération de valeur. Itération politique. La récompense réduite échoue.
- Séminaire: itération de la valeur.
- Description des devoirs - Voir semaine2 / readme.md.
Week03_Model_free Apprentissage de renforcement sans modèle
- Conférence: Q-Learning. Sarsa. Algorithmes de politique hors politique vs. Algorithmes N-Step. TD (Lambda).
- Séminaire: Qlearning vs SARSA vs valeur attendue SARSA
- Description des devoirs - Voir semaine3 / readme.md.
récap_deep_learning - récapitulatif d'apprentissage en profondeur
- Conférence: Deep Learning 101
- Séminaire: introduction à pytorch / tensorflow, classification d'image simple avec des convaints
semaine04_approx_rl approximation (profonde) rl
- Conférence: Espace d'état infini / continu. Approximation de la fonction de valeur. Conditions de convergence. Trick d'agents multiples; Expérience de la rediffusion, des réseaux cibles, du double / duel / bootstrap DQN, etc.
- Séminaire: Approximation Q-Learning avec relecture d'expérience. (Cartpole, Atari)
Exploration de la semaine05_explore
- Conférence: bandits contextuels. Échantillonnage de Thompson, UCB, UCB bayésien. Exploration dans RL basé sur des modèles, MCTS. Heuristique "profonde" pour l'exploration.
- Séminaire: Exploration bayésienne pour les bandits contextuels. UCB pour MCTS.
Méthodes de gradient de politique de la semaine06_policy_
- Conférence: motivation pour la politique, gradient de politique, astuce logdérative, méthode de renforcement / croissante, réduction de la variance (ligne de base), avantage acteur-critique (incl. Gae)
- Séminaire: renforcer, avantage acteur-critique
semaine07_seq2seq apprentissage du renforcement pour les modèles de séquence
- Conférence: problèmes avec les données séquentielles. Réseaux de neurones récurrents. Détalprop dans le temps. Vanisant et exploser les gradients. Lstm, Gru. Coupure de dégradé
- Séminaire: modèle de langue RNN au niveau des caractères
semaine08_pomdp MDP partiellement observé
- Conférence: intro pomdp. Apprentissage POMDP (agents avec mémoire). Planification POMDP (POMCP, etc.)
- Séminaire: Deep Kung-Fu et Doom avec A3C et DRQN récurrent
Week09_Policy_II Méthodes avancées basées sur les politiques
- Conférence: Trust Région Optimisation des politiques. NPO / PPO. Gradient de politique déterministe. Ddpg
- Séminaire: TRPO approximatif pour un simple contrôle des robots.
Week10_Planning basé sur un modèle RL & Co
- Conférence: RL basé sur un modèle, planification en général, apprentissage par imitation et apprentissage en renforcement inverse
- Séminaire: MCTS pour les tâches jouets
encore_another_week inverse rl et imitation apprentissage
- Tous ces trucs RL cool que vous n'apprendrez pas de ce cours :)

Personnel de cours

Matériel de cours et enseignement par: [non ordonné]

Pavel Shvechikov - Conférences, séminaires, chèques HW, groupe de lecture
Nikita Poutintsev - séminaires, chèques HW, organisation de notre désordre chaud
Alexander Fritsler - Conférences, séminaires, chèques HW
Oleg Vasilev - séminaires, chèques HW, support technique
Dmitry Nikulin - des tonnes de correctifs, loin et large
Mikhail Konobeev - séminaires, chèques HW
Ivan Kharitonov - séminaires, chèques HW
Ravil Khisamov - séminaires, chèques HW
Anna Klepova - Hw Checkups
Fedor Ratnikov - Admin Stuff

Contributions

Utilisation de photos de Berkeley AI Course
Référant massivement à CS294
Plusieurs affectations TensorFlow par Scitator
Beaucoup de correctifs d'Arogozhnikov
Autres personnes formidables: voir les contributeurs GitHub
Alexey Umnov nous a beaucoup aidés au printemps2018

Développer

Informations supplémentaires

Version Spring 2020
Type Autre code source
Date de mise à jour 2025-06-03
taille 13.19MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Chien_Renard_Lapin

2022-08-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout