Practical_rl
Um curso aberto sobre aprendizado de reforço em estado selvagem. Ensinado no campus na HSE e YSDA e mantido como amigável com os alunos on-line (inglês e russo).
Manifesto:
- Otimize para os curiosos. Para todos os materiais que não são abordados em detalhes, existem links para mais informações e materiais relacionados (D.Silver/Sutton/Blogs/o que for). As tarefas terão seções de bônus se você quiser se aprofundar.
- Praticidade primeiro. Tudo essencial para resolver problemas de aprendizado de reforço vale a pena mencionar. Não vamos evitar cobrir truques e heurísticas. Para cada idéia importante, deve haver um laboratório que faça com que você "sinta" em um problema prático.
- Git-curso. Sabe uma maneira de melhorar o curso? Notou um erro de digitação em uma fórmula? Encontrou um link útil? Tornou o código mais legível? Fez uma versão para estrutura alternativa? Você é incrível! Pull-Request It!
Informações do curso
Perguntas frequentes: sobre o curso, o tópico de questões técnicas, slides de palestras, guia de sobrevivência de estudantes on -line
Formulário de feedback anônimo.
Ambiente de curso virtual:
- Google Colab -Set Open -> github -> yandexdataSchool/pracical_rl -> {Nome da ramificação} e selecione qualquer notebook desejar.
- Instalando dependências em sua máquina local (recomendado).
- Alternativa: Notebooks do Azure.
Materiais adicionais
Programa de Estudos
O plano de estudos é aproximado: as palestras podem ocorrer em uma ordem ligeiramente diferente e alguns tópicos podem acabar levando duas semanas.
WEED01_INTRO INTRODUÇÃO
- Palestra: RL Problemas ao nosso redor. Processos de decisão. Otimização estocástica, método de cruzentropia. Pesquisa de espaço de parâmetro versus pesquisa de espaço de ação.
- Seminário: Bem -vindo ao Openai Gym. Tabular Cem para Taxi-V0, Deep Cem para ambientes Box2D.
- Descrição da lição de casa - Consulte a semana1/readme.md.
Métodos com base em Week02_Value_Based Value
- Palestra: Recompensa com desconto MDP. Abordagem baseada em valor. Iteração de valor. Iteração política. A recompensa com desconto falha.
- Seminário: iteração de valor.
- Descrição da lição de casa - consulte a semana2/readme.md.
WEED03_MODEL_FREE Aprendizagem de reforço sem modelo
- Palestra: Q-Learning. SARSA. Algoritmos fora da política vs na política. Algoritmos N-Step. TD (Lambda).
- Seminário: Qlearning vs Sarsa vs Valor esperado SARSA
- Descrição da lição de casa - Consulte a semana3/readme.md.
Recap_deep_learning - Recapitulação de aprendizado profundo
- Palestra: Aprendizagem Deep 101
- Seminário: Introdução a Pytorch/Tensorflow, classificação de imagem simples com convênios
Seman04_approx_rl aproximadamente (profundo) RL
- Palestra: Espaço de Estado Infinito/Contínuo. Aproximação da função de valor. Condições de convergência. Voto de vários agentes; Experimente reprodução, redes de destino, duelo/duelo/bootstrap dqn, etc.
- Seminário: aproximar o q-learning com reprodução de experiência. (Cartpole, Atari)
WEED05_EXPLORE Exploration
- Palestra: bandidos contextuais. Thompson Sampling, UCB, UCB bayesiano. Exploração em RL baseado em modelo, MCTS. Heurísticas "profundas" para exploração.
- Seminário: exploração bayesiana para bandidos contextuais. UCB para MCTS.
Métodos de gradiente de políticas de Week06_policy_based
- Palestra: Motivação para baseada em políticas, gradiente de políticas, truques logderivativos, método de reforço/cruzentropia, redução de variação (linha de base), vantagem ator-crítica (incl. GAE)
- Seminário: reforço, vantagem ator-crítico
Seman07_seq2seq Aprendizagem de reforço para modelos de sequência
- Palestra: Problemas com dados seqüenciais. Redes neurais recorrentes. BackProp no tempo. Va funindo e explodindo gradientes. LSTM, GRU. Recorte de gradiente
- Seminário: Modelo de Linguagem RNN no nível do personagem
Seman08_pomdp MDP parcialmente observado
- Palestra: Introdução do POMDP. Aprendizagem do POMDP (agentes com memória). Planejamento POMDP (POMCP, etc)
- Seminário: Deep Kung-Fu & Doom com A3C e DRQN recorrentes
WEED09_POLICY_II Métodos baseados em políticas avançadas
- Palestra: Trust Region Policy Optimization. NPO/PPO. Gradiente de política determinística. Ddpg
- Seminário: TRPO aproximado para controle de robô simples.
Semana0_PLANNING RL & Co baseado em modelo
- Palestra: RL baseada em modelo, planejamento em geral, aprendizado de imitação e aprendizado de reforço inverso
- Seminário: MCTs para tarefas de brinquedo
ainda_another_week inverso rl e aprendizado de imitação
- Todas aquelas coisas legais de RL que você não aprenderá com este curso :)
Equipe do curso
Materiais do curso e ensino por: [não ordenado]
- Pavel Shvechikov - Palestras, seminários, check -ups HW, grupo de leitura
- Nikita Putintsev - Seminários, check -ups HW, organizando nossa bagunça quente
- Alexander Fritsler - Palestras, seminários, check -ups HW
- Oleg Vasilev - Seminários, exames HW, suporte técnico
- Dmitry Nikulin - Toneladas de correções, em toda parte
- Mikhail Konobeev - Seminários, check -ups HW
- Ivan Kharitonov - Seminários, check -ups HW
- Ravil Khisamov - Seminários, check -ups HW
- Anna Klepova - check -ups de HW
- Fedor Ratnikov - Coisas de Admin
Contribuições
- Usando fotos do curso de Berkeley AI
- Referindo -se massivamente ao CS294
- Várias atribuições de tensorflow por cientador
- Muitas correções de Arogozhnikov
- Outras pessoas incríveis: veja colaboradores do Github
- Alexey Umnov nos ajudou muito durante a primavera de 2018