Deeprl-Tutorials
Цель этих ноутбуков IPTHON в основном помогает мне практиковать и понять документы, которые я читал; Таким образом, в некоторых случаях я выберу читабельность по сравнению с эффективностью. Сначала будет загружена реализация, а затем разметка для объяснения каждой части кода. Я буду назначать кредит для любого кода, который заимствован в разделе «Благодарности этого».
Соответствующие документы:
- Контроль уровня человека через обучение глубокому подкреплению [Публикация] [Код]
- Многоэтапное обучение (от подкрепления обучения: введение, глава 7) [Публикация] [Код]
- Глубокое обучение подкреплению с двойным Q-обучением [Публикация] [Код]
- Дуэльные сетевые архитектуры для обучения глубоким подкреплением [Публикация] [Код]
- Чудолевые сети для исследования [Публикация] [Код]
- Приоритетный опыт воспроизведения [Публикация] [Код]
- Распределение перспективы на обучение подкреплению [Публикация] [Код]
- Радуга: объединение улучшений в обучении глубоким подкреплением [Публикация] [Код]
- Обучение укреплению распределения с квантильной регрессией [Публикация] [Код]
- Радуга с квантильной регрессией [код]
- Глубокое повторяемое Q-обучение для частично наблюдаемых MDP [Publication] [Code]
- Advantage Actor Critic (A2C) [Publication1] [Publication2] [Code]
- Высокий непрерывный контроль с использованием общей оценки преимуществ [Публикация] [CODE]
- Алгоритмы оптимизации проксимальной политики [Publication] [CODE]
Требования:
- Python 3.6
- Numpy
- Спортзал
- Pytorch 0.4.0
- Matplotlib
- OpenCV
- Базовые линии
Благодарности:
- Кредит @baselines за обертки окружающей среды и вдохновение для приоритетного кода воспроизведения, используемого только в коде разработки
- Кредит @higgsfield за код построения, код отжига Epsilon и вдохновение для приоритетной реализации воспроизведения в записной книжке ipython
- Кредит @kaixhin для факторизованного шумного внедрения линейного уровня и функции projection_distribution, найденная в категориальном DQN.ipynb
- Кредит @IkoStrikov для A2C, GAE, PPO и VISDOM PLATETING SWORD Справочник по реализации