Praktisch_rl
Ein offener Kurs über Verstärkungslernen in freier Wildbahn. Unterrichtete auf dem Campus bei HSE und YSDA und hielt für Online-Studenten (sowohl Englisch als auch Russisch) freundlich.
Manifest:
- Optimieren Sie die Neugierigen. Für alle Materialien, die nicht ausführlich behandelt werden, gibt es Links zu weiteren Informationen und verwandten Materialien (D.Silver/Sutton/Blogs/was auch immer). Aufgaben haben Bonusabschnitte, wenn Sie tiefer graben möchten.
- Praktikabilität zuerst. Alles, was für die Lösung von Lernproblemen für Verstärkung unerlässlich ist, ist erwähnenswert. Wir werden uns nicht davon abhalten, Tricks und Heuristiken abzudecken. Für jede Hauptidee sollte es ein Labor geben, in dem Sie es bei einem praktischen Problem „fühlen“ können.
- Git-Course. Kennen Sie einen Weg, den Kurs besser zu machen? Einen Tippfehler in einer Formel bemerkt? Einen nützlichen Link gefunden? Den Code lesbarer gemacht? Eine Version für alternatives Framework gemacht? Du bist großartig! Pull-Equest es!
Kursinformationen
FAQ: Über den Kurs, technische Probleme Thread, Vorlesungsreihen, Online -Überlebenshandbuch für Schüler
Anonymer Feedback -Formular.
Virtuelle Kursumgebung:
- Google Colab -Öffnen -> Github -> YandexDataSchool/Pracical_RL -> {Zweigname} und wählen Sie ein beliebiges Notebook aus.
- Installieren von Abhängigkeiten auf Ihrem lokalen Computer (empfohlen).
- Alternative: Azure Notebooks.
Zusätzliche Materialien
Lehrplan
Der Lehrplan ist ungefähr: Die Vorlesungen können in einer etwas anderen Reihenfolge auftreten und einige Themen können zwei Wochen dauern.
Woche01_Intro Einführung
- Vortrag: RL -Probleme um uns herum. Entscheidungsprozesse. Stochastische Optimierung, Kreuzentropy -Methode. Parameterspace -Suche vs Aktionsraumsuche.
- Seminar: Willkommen im Openai -Fitnessstudio. TABULUS CEM für Taxv0, Deep CEM für Box2D-Umgebungen.
- Hausaufgabenbeschreibung - Siehe Woche1/Readme.md.
Woche02_Value_Based Value-basierte Methoden
- Vortrag: reduzierte Belohnung MDP. Wertbasierter Ansatz. Wert -Iteration. Richtlinien -Iteration. Ermäßigte Belohnung schlägt fehl.
- Seminar: Wert -Iteration.
- Hausaufgabenbeschreibung - Siehe Woche2/Readme.md.
Woche03_Model_Free modellfreies Verstärkungslernen
- Vortrag: Q-Learning. Sarsa. Off-Policy gegen On-Policy-Algorithmen. N-Step-Algorithmen. TD (Lambda).
- Seminar: Qlearning gegen Sarsa gegen den erwarteten Wert Sarsa
- Hausaufgabenbeschreibung - Siehe Woche3/Readme.md.
recap_deep_learning - Deep Learning Recape
- Vortrag: Deep Learning 101
- Seminar: Intro in Pytorch/TensorFlow, einfache Bildklassifizierung mit Überzeugungsformen
Woche04_Applox_rl ungefähr (tief) rl
- Vorlesung: Infinite/kontinuierlicher Zustand. Wertungsfunktionsnäherung. Konvergenzbedingungen. Mehrere Agenten Trick; Erlebnis Wiederholung, Zielnetzwerke, Doppel/Duelling/Bootstrap DQN usw.
- Seminar: Ungefähres Q-Learning mit Erfahrungen. (Cartpole, Atari)
Woche05_Explore Exploration
- Vortrag: Kontextbanditen. Thompson -Probenahme, UCB, Bayesian UCB. Exploration in modellbasiertem RL, MCTs. "Tiefe" Heuristiken zur Erkundung.
- Seminar: Bayes'sche Erkundung für kontextbezogene Banditen. UCB für MCTs.
Woche06_Policy_Based Policy Gradient Methoden
- Vorlesung: Motivation für politische Basis, politische Gradienten, Logderivationsstrick, Verstärkung/Kreuzentropy-Methode, Varianzreduktion (Basislinie), Advantage Actor-Critic (inkl. GAE)
- Seminar: Verstärkung, vorteilhafte Schauspieler-Kritik
Woche07_SEQ2SEQ -Verstärkungslern für Sequenzmodelle
- Vortrag: Probleme mit sequentiellen Daten. Wiederkehrende neuronale Netzwerke. Backprop durch die Zeit. Verschwinden und explodierende Gradienten. LSTM, Gru. Gradientenausschnitt
- Seminar: RNN-Sprachmodell auf Charakterebene
Woche08_POMDP teilweise beobachtet MDP
- Vorlesung: POMDP Intro. POMDP -Lernen (Agenten mit Gedächtnis). POMDP -Planung (POMCP usw.)
- Seminar: Deep Kung-Fu & Doom mit wiederkehrender A3C und DRQN
Week09_Policy_ii Erweiterte Richtlinienbasierte Methoden
- Vortrag: Richtlinienoptimierung der Vertrauensregion. NPO/PPO. Deterministischer politischer Gradient. DDPG
- Seminar: ungefähre Trpo für eine einfache Roboterkontrolle.
Week10_planning modellbasiertes RL & CO
- Vorlesung: Modellbasiertes RL, Planung im Allgemeinen, Lernen im Nachahmung und inverse Verstärkungslernen
- Seminar: MCTs für Spielzeugaufgaben
lerno_another_week inverse RL und Nachahmungslernen
- All das coole RL -Sachen, das Sie aus diesem Kurs nicht lernen werden :)
Kurspersonal
Kursmaterialien und Unterricht von: [nicht ordnungsgemäß]
- Pavel Shvechikov - Vorlesungen, Seminare, HW -Checkups, Reading Group
- Nikita Putintsev - Seminare, HW -Untersuchungen, organisieren unser heißes Durcheinander
- Alexander Fritsler - Vorträge, Seminare, HW -Untersuchungen
- Oleg Vasilev - Seminare, HW -Checkups, technischer Support
- Dmitry Nikulin - Tonnen von Fixes, weit und breit
- Mikhail Konobeev - Seminare, HW -Untersuchungen
- Ivan Kharitonov - Seminare, HW -Untersuchungen
- Ravil Khisamov - Seminare, HW -Untersuchungen
- Anna Klepova - HW -Untersuchungen
- Fedor Ratnikov - Administrator
Beiträge
- Verwenden Sie Bilder vom Berkeley AI -Kurs
- Massiv beziehen sich auf CS294
- Mehrere Tensorflow -Zuordnungen nach Scitator
- Viele Korrekturen von Agozhnikov
- Andere großartige Leute: siehe Github -Mitwirkende
- Alexey Umnov hat uns im Frühjahr 2018 sehr geholfen