Práctico_rl
Un curso abierto sobre el aprendizaje de refuerzo en la naturaleza. Enseñó en el campus en HSE e YSDA y se mantuvo para ser amigables con los estudiantes en línea (tanto inglés como ruso).
Manifiesto:
- Optimizar para los curiosos. Para todos los materiales que no están cubiertos en detalle, hay enlaces a más información y materiales relacionados (D.Silver/Sutton/Blogs/Lo que sea). Las tareas tendrán secciones de bonificación si desea profundizar.
- Practicidad primero. Vale la pena mencionar todo esencial para resolver problemas de aprendizaje de refuerzo. No nos alejaremos de cubrir trucos y heurísticas. Para cada idea importante, debe haber un laboratorio que lo haga "sentir" en un problema práctico.
- Git-Course. ¿Conoce una forma de mejorar el curso? ¿Notó un error tipográfico en una fórmula? ¿Encontró un enlace útil? ¿Hizo que el código fuera más legible? ¿Hizo una versión para el marco alternativo? ¡Eres increíble! ¡Pull-lo revise!
Información del curso
Preguntas frecuentes: sobre el curso, hilo de problemas técnicos, diapositivas de conferencias, guía de supervivencia de estudiantes en línea
Formulario de retroalimentación anónima.
Entorno del curso virtual:
- Google Colab -Establecer Open -> GitHub -> Yandexdataschool/Pracical_RL -> {Nombre de la rama} y seleccione cualquier cuaderno que desee.
- Instalación de dependencias en su máquina local (recomendada).
- Alternativa: cuadernos Azure.
Materiales adicionales
Programa de estudios
El plan de estudios es aproximado: las conferencias pueden ocurrir en un orden ligeramente diferente y algunos temas pueden terminar tomando dos semanas.
Week01_Intro Introducción
- Conferencia: RL Problemas a nuestro alrededor. Procesos de decisión. Optimización estocástica, método de intergropía. Búsqueda de espacio de parámetros vs Action Space Search.
- Seminario: Bienvenido al gimnasio Operai. CEM tabular para Taxi-V0, CEM profundo para entornos Box2d.
- Descripción de la tarea - ver Semana1/Readme.md.
Semana02_value_ Métodos basados en el valor
- Conferencia: recompensa con descuento MDP. Enfoque basado en el valor. Valor iteración. Iteración de política. La recompensa con descuento falla.
- Seminario: iteración de valor.
- Descripción de la tarea - Ver Semana2/Readme.md.
Week03_Model_Free Learning de refuerzo sin modelo
- Conferencia: Q-Learning. Sarsa. Algoritmos fuera de política versus en política. Algoritmos de N-pasos. TD (lambda).
- Seminario: Qlearning vs Sarsa vs Valor esperado Sarsa
- Descripción de la tarea - ver Semana3/Readme.md.
recap_deep_learning - recapitulación de aprendizaje profundo
- Conferencia: Aprendizaje profundo 101
- Seminario: Introducción a Pytorch/TensorFlow, clasificación de imagen simple con convnets
Week04_approx_rl Aproximado (profundo) RL
- Conferencia: espacio de estado infinito/continuo. Aproximación de la función de valor. Condiciones de convergencia. Truco de múltiples agentes; Reproducción de experiencia, redes de destino, doble/duelo/bootstrap DQN, etc.
- Seminario: aproximado Q-learning con repetición de experiencia. (Cartpole, Atari)
Week05_explore Exploration
- Conferencia: bandidos contextuales. Sampling Thompson, UCB, Bayesian UCB. Exploración en RL basado en modelos, MCTS. Heurística "profunda" para la exploración.
- Seminario: Exploración bayesiana para bandidos contextuales. UCB para MCTS.
Semana06_policy_Based Policy Gradient Methods
- Conferencia: Motivación para políticas, gradiente de políticas, truco logerivative, método de refuerza/cruce, reducción de varianza (línea de base), ventaja actor-crítica (incl. Gae)
- Seminario: Reforzar, ventaja actor-crítico
Week07_SEQ2SEQ Aprendizaje de refuerzo para modelos de secuencia
- Conferencia: Problemas con datos secuenciales. Redes neuronales recurrentes. Backprop a través del tiempo. Gradientes de desaparición y explosión. LSTM, Gru. Recorte de gradiente
- Seminario: modelo de idioma RNN a nivel de personaje
Week08_POMDP MDP parcialmente observado
- Conferencia: POMDP Introducción. POMDP Aprendizaje (Agentes con memoria). Planificación de POMDP (POMCP, etc.)
- Seminario: profundo kung-fu & doom con A3C y DRQN recurrente
Semana09_policy_ii Métodos avanzados basados en políticas
- Conferencia: optimización de políticas de la región de confianza. NPO/PPO. Gradiente de política determinista. Ddpg
- Seminario: TRPO aproximado para el control simple de robots.
Semana10_planning basado en modelos RL & Co
- Conferencia: RL basado en modelos, planificación en general, aprendizaje de imitación y aprendizaje de refuerzo inverso
- Seminario: MCT para tareas de juguetes
yet_another_week inverse rl e imitación de aprendizaje
- Todas esas cosas geniales de RL que no aprenderás de este curso :)
Personal del curso
Materiales del curso y enseñanza por: [desordenado]
- Pavel Shvechikov - Conferencias, seminarios, chequeos HW, Grupo de lectura
- Nikita PutIntsev - Seminarios, chequeos HW, organizando nuestro desastre caliente
- Alexander Fritsler - Conferencias, seminarios, chequeos HW
- Oleg Vasilev - Seminarios, chequeos HW, soporte técnico
- Dmitry nikulin - toneladas de soluciones, a lo largo y ancho
- Mikhail Konobeev - Seminarios, chequeos HW
- Ivan Kharitonov - Seminarios, chequeos HW
- Ravil Khisamov - Seminarios, chequeos HW
- Anna Klepova - chequeos HW
- Fedor Ratnikov - Cosas de administración
Contribuciones
- Usar fotos del curso de Berkeley AI
- Referiéndose masivamente a CS294
- Varias tareas de TensorFlow de Scitator
- Muchas correcciones de Arogozhnikov
- Otras personas increíbles: ver colaboradores de GitHub
- Alexey Umnov nos ayudó mucho durante la primavera de 2018