Deeprl-Tutoriais
A intenção desses notebooks ipython é principalmente para me ajudar a praticar e entender os papéis que li; Assim, optarei pela legibilidade sobre a eficiência em alguns casos. Primeiro, a implementação será enviada, seguida de marcação para explicar cada parte do código. Vou atribuir crédito a qualquer código emprestado na seção Agradecimentos deste ReadMe.
Artigos relevantes:
- Controle de nível humano através do aprendizado de reforço profundo [publicação] [código]
- Aprendizagem em várias etapas (da aprendizagem de reforço: uma introdução, capítulo 7) [publicação] [código]
- Aprendizagem de reforço profundo com duplo q-learning [publicação] [código]
- Arquiteturas de rede de duelo para aprendizado de reforço profundo [publicação] [código]
- Redes barulhentas para exploração [publicação] [código]
- Experiência priorizada Replay [Publicação] [Código]
- Uma perspectiva de distribuição sobre o aprendizado de reforço [publicação] [código]
- Rainbow: combinando melhorias no aprendizado de reforço profundo [publicação] [código]
- Aprendizagem de reforço de distribuição com regressão quantil [publicação] [código]
- Arco -íris com regressão quantil [código]
- Deep Recorrente Recorrente para MDPs parcialmente observáveis [Publicação] [Código]
- Crítico do ator Advantage (A2C) [Publicação1] [Publicação2] [Código]
- Controle contínuo de alta dimensão usando estimativa de vantagem generalizada [publicação] [código]
- Algoritmos de otimização de políticas proximais [publicação] [Código]
Requisitos:
- Python 3.6
- Numpy
- Academia
- Pytorch 0.4.0
- Matplotlib
- OpenEncv
- Baslines
Agradecimentos:
- Crédito para @BaseLines for the Environment Wrappers e inspiração para o código de repetição priorizado usado apenas no código de desenvolvimento
- Crédito para @higgsfield pelo código de plotagem, código de recozimento Epsilon e inspiração para a implementação de reprodução priorizada no notebook IPython
- Crédito para @Kaixhin pela implementação de camada linear barulhenta fatorizada e a função projection_distribution encontrada em categórica dqn.ipynb
- Crédito para @ikostrikov por A2C, GAE, PPO e Referência