Tutoriales profundos
La intención de estos cuadernos de Ipython es principalmente para ayudarme a practicar y comprender los documentos que leí; Por lo tanto, optaré por la legibilidad sobre la eficiencia en algunos casos. Primero, la implementación se cargará, seguida de un marcado para explicar cada parte del código. Asignaré crédito por cualquier código que se tome prestado en la sección de Agradecimientos de este ReadMe.
Documentos relevantes:
- Control de nivel humano a través del aprendizaje de refuerzo profundo [publicación] [Código]
- Aprendizaje de múltiples pasos (del aprendizaje de refuerzo: una introducción, Capítulo 7) [Publicación] [Código]
- Aprendizaje de refuerzo profundo con doble Q-learning [Publicación] [Código]
- Arquitecturas de red de duelo para el aprendizaje de refuerzo profundo [publicación] [Código]
- Redes ruidosas para exploración [publicación] [código]
- Experiencia priorizada Replay [publicación] [Código]
- Una perspectiva de distribución sobre el aprendizaje de refuerzo [publicación] [Código]
- Rainbow: combinando mejoras en el aprendizaje de refuerzo profundo [publicación] [Código]
- Aprendizaje de refuerzo de distribución con regresión cuantil [publicación] [Código]
- Arco iris con regresión cuantil [código]
- El aprendizaje Q recurrente profundo para MDP parcialmente observables [Publicación] [Código]
- Advantage Actor Critic (A2C) [Publicación1] [Publicación2] [Código]
- Control continuo de alta dimensión utilizando la estimación de ventaja generalizada [Publicación] [Código]
- Algoritmos de optimización de políticas proximales [Publicación] [Código]
Requisitos:
- Python 3.6
- Numpy
- Gimnasia
- Pytorch 0.4.0
- Mate
- Opencvv
- Base
Expresiones de gratitud:
- Crédito a @baselines para envoltorios de entorno e inspiración para el código de repetición priorizado utilizado solo en el código de desarrollo
- Crédito a @higgsfield por el código de trazado, el código de recocido de epsilon e inspiración para la implementación de repetición priorizada en el cuaderno de ipython
- Crédito a @kaixhin para la implementación de capa lineal ruidosa factorizada y la función Proyection_Distribution que se encuentra en categórica-DQN.IPYNB
- Crédito a @ikostrikov para la referencia de implementación del código de trazado de A2C, GAE, PPO y Visdom