Aprendizaje de refuerzo profundo de groking
Nota: En este momento, solo se admite ejecutar el código desde el contenedor Docker (a continuación). Docker permite crear un entorno único que sea más probable que funcione en todos los sistemas. Básicamente, instalo y configure todos los paquetes para usted, excepto Docker en sí, y solo ejecuta el código en un entorno probado.
Para instalar Docker, recomiendo una búsqueda web para "Instalar Docker en <su sistema operativo aquí>". Para ejecutar el código en una GPU, debe instalar adicionalmente nvidia-docker. Nvidia Docker permite usar las GPU de un host dentro de los contenedores Docker. Después de que tenga instalado Docker (y Nvidia-Docker si usa una GPU), siga los tres pasos a continuación.
Ejecutando el código
- Clon este repositorio:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - Tire de la imagen GDRL con:
docker pull mimoralea/gdrl:v0.14 - Gire un contenedor:
- En Mac o Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - En Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Nota: Use
nvidia-docker o agregue --gpus all After --rm al comando, si está utilizando una GPU.
- Abra un navegador y vaya a la URL que se muestra en el terminal (probablemente sea: http: // localhost: 8888). La contraseña es:
gdrl
Sobre el libro
Sitio web del libro
https://www.manning.com/books/grokking-eep-reforcion-lelarning
Tabla de contenido
- Introducción al aprendizaje de refuerzo profundo
- Fundaciones matemáticas del aprendizaje de refuerzo
- Equilibrar objetivos inmediatos y a largo plazo
- Equilibrar la recopilación y la utilización de la información
- Evaluar los comportamientos de los agentes
- Mejorar los comportamientos de los agentes
- Lograr objetivos de manera más efectiva y eficiente
- Introducción al aprendizaje de refuerzo profundo basado en el valor
- Métodos más estables basados en el valor
- Métodos basados en el valor eficiente en muestra
- Métodos de gradiente de políticas y actores críticos
- Métodos avanzados del actor-crítico
- Hacia la inteligencia general artificial
Tabla detallada de contenido
1. Introducción al aprendizaje de refuerzo profundo
- (LiveBook)
- (Sin cuaderno)
2. Fundaciones matemáticas del aprendizaje de refuerzo
- (LiveBook)
- (Computadora portátil)
- Implementaciones de varios MDP:
- Caminata por bandidos
- Bandit Slippery Walk
- Caminata resbaladiza tres
- Caminata aleatoria
- Russell y Norvig's Gridworld de AIMA
- Frozenlake
- Frozenlake8x8
3. Equilibrio de objetivos inmediatos y a largo plazo
- (LiveBook)
- (Computadora portátil)
- Implementaciones de métodos para encontrar políticas óptimas:
- Evaluación de políticas
- Mejora de la política
- Iteración de política
- Valor iteración
4. Equilibrar la recopilación y utilización de la información
- (LiveBook)
- (Computadora portátil)
- Implementaciones de estrategias de exploración para problemas de bandidos:
- Aleatorio
- Avaro
- Greedia
- Greedia electrónica con Epsilon en descomposición linealmente
- Greedy E con Epsilon en descomposición exponencial
- Inicialización optimista
- Softmax
- Confianza superior ligada
- Bayesiano
5. Evaluación de los comportamientos de los agentes
- (LiveBook)
- (Computadora portátil)
- Implementación de algoritmos que resuelven el problema de predicción (estimación de políticas):
- Predicción de la primera visita en la política de Monte-Carlo
- Predicción de Monte-Carlo en la visita en la política
- Predicción de diferencia temporal (TD)
- Predicción de diferencia temporal de N-paso (TD-Step T)
- TD (λ)
6. Mejora de los comportamientos de los agentes
- (LiveBook)
- (Computadora portátil)
- Implementación de algoritmos que resuelven el problema de control (mejora de la política):
- Control de Monte-Carlo de primera visita en la política
- Control de Monte-Carlo en la visita en la política
- Control de TD en política: Sarsa
- Control de TD fuera de política: Q-Learning
- Doble Q-learning
7. Lograr objetivos de manera más efectiva y eficiente
- (LiveBook)
- (Computadora portátil)
- Implementación de algoritmos de aprendizaje de refuerzo más efectivos y eficientes:
- Sarsa (λ) con trazas de reemplazo
- Sarsa (λ) con trazas acumuladas
- Q (λ) con trazas de reemplazo
- Q (λ) con trazas de acumulación
- Dyna-Q
- Muestreo de trayectoria
8. Introducción al aprendizaje de refuerzo profundo basado en el valor
- (LiveBook)
- (Computadora portátil)
- Implementación de una línea de base de aprendizaje de refuerzo profundo basado en el valor:
- NEURAL INSTACTIVO Q-iteración (NFQ)
9. Métodos basados en el valor más estable
- (LiveBook)
- (Computadora portátil)
- Implementación de métodos de aprendizaje de refuerzo profundo basados en el valor "clásico":
- Profundo Q-Networks (DQN)
- Q-NetWorks doble profundo (DDQN)
10. Métodos basados en el valor de la muestra-eficiente
- (LiveBook)
- (Computadora portátil)
- Implementación de las principales mejoras para los métodos de aprendizaje de refuerzo profundo basados en el valor:
- Dueling profundo Q-Networks (Dueling DQN)
- Reproducción de experiencia priorizada (PER)
11. Métodos de gradiente de políticas y actores críticos
- (LiveBook)
- (Computadora portátil)
- Implementación de métodos clásicos de refuerzo de refuerzo profundo basados en políticas y críticas críticas:
- Gradientes de política sin función de valor y retornos de Monte-Carlo (reforzarse)
- Gradientes de política con función de valor de valor entrenado con retornos de Monte-Carlo (VPG)
- Ventaja asíncrona Actor-Critic (A3C)
- Estimación de ventaja generalizada (GAE)
- Ventaja de ventaja [sincrónica] Criticador (A2C)
12. Métodos avanzados del actor-crítico
- (LiveBook)
- (Computadora portátil)
- Implementación de métodos críticos de actor avanzado:
- Gradiente de política determinista profunda (DDPG)
- Twin Dethered Detep Deterministic Policy Gradient (TD3)
- Actor suave-crítico (SAC)
- Optimización de políticas proximales (PPO)
13. Hacia la inteligencia general artificial
- (LiveBook)
- (Sin cuaderno)