Практика_Рл
Открытый курс по подкреплению обучения в дикой природе. Преподавал в кампусе в HSE и YSDA и поддерживал товарищеские к онлайн-студентам (как английскому, так и русскому языку).
Манифест:
- Оптимизируйте для любопытных. Для всех материалов, которые не рассматриваются подробно, существуют ссылки на дополнительную информацию и связанные с ней материалы (D.Silver/Sutton/Blogs/что угодно). Задания будут иметь бонусные разделы, если вы хотите копать глубже.
- Практичность в первую очередь. Все необходимо для решения проблем подкрепления обучения, стоит упомянуть. Мы не будем избегать прикрытия трюков и эвристики. Для каждой крупной идеи должна быть лаборатория, которая заставляет вас «почувствовать» ее на практической проблеме.
- Гит-курс. Знаете способ сделать курс лучше? Заметили опечатку в формуле? Нашли полезную ссылку? Сделал код более читабельным? Сделал версию для альтернативной структуры? Ты классный! Попросите!
Информация о курсе
FAQ: О курсе, Тема технических проблем, слайды лекций, руководство по выживанию онлайн -студентов
Анонимная форма обратной связи.
Виртуальная среда курса:
- Google Colab -Set Open -> github -> yandexdataschool/pracical_rl -> {name} и выберите любой ноутбук, который вы хотите.
- Установка зависимостей на местной машине (рекомендуется).
- Альтернатива: Azure Notebooks.
Дополнительные материалы
Учебный план
Программа является приблизительной: лекции могут происходить в несколько ином порядке, и некоторые темы могут занять две недели.
Week01_intro введение
- Лекция: RL Проблемы вокруг нас. Процессы принятия решений. Стохастическая оптимизация, метод кроссентропии. Поиск пространства параметров против поиска пространства действий.
- Семинар: Добро пожаловать в спортзал Openai. Tabular CEM для TAXI-V0, Deep CEM для среды Box2D.
- Описание домашнего задания - см. Week1/readme.md.
WEEK02_VALUE_BADED МЕТОДЫ ОСОБЕННОСТИ
- Лекция: скидка на вознаграждение MDP. Подход на основе стоимости. Ценностная итерация. Политическая итерация. Снижение награды не удается.
- Семинар: ценностная итерация.
- Описание домашнего задания - см. Week2/readme.md.
Week03_Model_Free без модели.
- Лекция: Q-обучение. Сарса. Вне политики против алгоритмов на политике. N-шаг алгоритмы. TD (Lambda).
- Семинар: Qlearning vs Sarsa против ожидаемой стоимости Sarsa
- Описание домашнего задания - см. Week3/readme.md.
recap_deep_learning - глубокое обучение резюме
- Лекция: глубокое обучение 101
- Семинар: вступление в Pytorch/Tensorflow, Простая классификация изображений с Convnets
Week04_approx_rl abpximate (deep) rl
- Лекция: бесконечное/непрерывное пространство состояния. Значение функции приближения. Условия сходимости. Многочисленные агенты трюки; Опыт воспроизведения, целевые сети, двойной/дуэль/начальная загрузка DQN и т. Д.
- Семинар: приблизительное Q-обучение с воспроизведением опыта. (Cartpole, atari)
Week05_explore Exploration
- Лекция: контекстуальные бандиты. Shompson Sampling, UCB, байесовский UCB. Исследование в моделях RL, MCTS. «Глубокая» эвристика для исследования.
- Семинар: байесовское исследование для контекстуальных бандитов. UCB для MCTS.
Week06_policy_based Methods Gradient Methods
- Лекция: мотивация для политической, градиента политики, логаривативная трюк, метод усиления/кроссентропии, снижение дисперсии (базовая линия), Advantage Actor-Critic (вкл. GAE)
- Семинар: подкреплять, преимущество актер-критику
Week07_seq2seq
- Лекция: проблемы с последовательными данными. Повторяющиеся нейронные сети. Backprop во времени. Исчезающие и взрывающиеся градиенты. LSTM, Gru. Градиент обрезка
- Семинар: модель языка на уровне персонажа RNN
Week08_pomdp частично наблюдается MDP
- Лекция: POMDP Intro. POMDP Learning (агенты с памятью). Планирование POMDP (POMCP и т. Д.)
- Семинар: Deep Kung-Fu & Doom с повторяющимся A3C и DRQN
Week09_policy_ii Расширенные политические методы
- Лекция: Оптимизация политики траста региона. NPO/PPO. Детерминированный градиент политики. DDPG
- Семинар: приблизительный TRPO для простого управления роботом.
week10_planning модели RL & Co
- Лекция: RL на основе моделей, планирование в целом, имитационное обучение и обратное обучение подкреплению
- Семинар: MCT для игрушечных задач
itpe_another_week обратный RL и имитационное обучение
- Все эти крутые вещи, которые вы не узнаете из этого курса :)
Персонал курса
Материалы курса и преподавание: [Неупопорядочен]
- Павел Швечиков - Лекции, семинары, проверка HW, Группа чтения
- Никита Путинсев - Семинары, HW Operups, Организация нашего горячего беспорядка
- Александр Фритслер - лекции, семинары, проверка HW
- Олег Василев - Семинары, Осмотрики HW, техническая поддержка
- Дмитрий Никулин - тонны исправлений, далеко и широко
- Mikhail Konobeev - Семинары, HW проверки
- Иван Харитонов - Семинары, HW проверки
- Равил Хисамов - Семинары, HW проверки
- Анна Клепова - HW проверки
- Федор Ратнаков - администратор
Вклад
- Использование фотографий из курса Berkeley AI
- Массово ссылаясь на CS294
- Несколько назначений TensorFlow от Scitator
- Много исправлений от Арогожникова
- Другие замечательные люди: см. Участники GitHub
- Алексей Умнова нам очень помог весной 2018