Deeprl
Если у вас есть какие -либо вопросы или вы хотите сообщить об ошибке, откройте проблему вместо того, чтобы отправлять мне по электронной почте напрямую.
Модульная реализация популярных алгоритмов глубоких RL в Pytorch.
Легкий переключение между игрушечными задачами и сложными играми.
Внедренные алгоритмы:
- (Двойной/дуэль/приоритет) Глубокое Q-обучение (DQN)
- Категорический DQN (C51)
- Квантильная регрессия DQN (QR-DQN)
- (Непрерывная/дискретная) Синхронное преимущество Актер Критик (A2C)
- Синхронное n-шаг Q-обучение (N-шаг DQN)
- Глубокий детерминированный градиент политики (DDPG)
- Проксимальная оптимизация политики (PPO)
- Критическая архитектура (OC)
- Цвековой задержка DDPG (TD3)
- Off-pac-kl/truncatedetd/differialgq/mvpi/reverserl/cof-pac/gradientdice/bi-res-ddpg/dac/geoff-pac/Quat/ace
Агент DQN, а также C51 и QR-DQN, имеет асинхронного актера для генерации данных и асинхронного буфера воспроизведения для передачи данных в GPU. Используя 1 RTX 2080 TI и 3 потока, агент DQN работает на 10 млн шагов (40 м кадров, 2,5 -метровые обновления) для прорыва в течение 6 часов.
Зависимость
- Pytorch v1.5.1
- См.
Dockerfile и requirements.txt для получения более подробной информации
Использование
examples.py содержит примеры для всех реализованных алгоритмов.
Dockerfile содержит среду для создания кривых ниже.
Пожалуйста, используйте этот Bibtex, если вы хотите цитировать это репо
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
Кривые (Commit 9e811e )
Breakoutnoframeskip-V4 (1 бег)
Mujoco
Производительность оценки DDPG/TD3. (5 прогонов, среднее + стандартная ошибка)
PPO онлайн производительность. (5 прогонов, среднее + стандартная ошибка, сглаженная окном размера 10)
Ссылки
- Контроль уровня человека через обучение глубокому подкреплению
- Асинхронные методы для глубокого обучения подкреплению
- Глубокое обучение подкреплению с двойным Q-обучением
- Дуэльные сетевые архитектуры для обучения глубокому подкреплению
- Играя в Атари с глубоким обучением подкреплению
- Hogwild!: Беззаконный подход к параллелизированию стохастического градиента спуска
- Алгоритмы градиента детерминированной политики
- Непрерывный контроль с глубоким обучением подкреплению
- Высокий непрерывный контроль с использованием общей оценки преимуществ
- Архитектура гибридного вознаграждения для обучения подкреплению
- Оптимизация политики в области регионов доверия
- Алгоритмы оптимизации проксимальной политики
- Появление поведения локомоции в богатых условиях
- Прогнозирование видео-кондиционирования с использованием глубоких сетей в играх Atari
- Распределительный взгляд на обучение подкреплению
- Обучение укреплению распределения с квантильной регрессией
- Критическая архитектура
- Ошибка обработки функции.
- Некоторые гиперпараметры взяты из DeepMind Control Suite, Baserines Openai и Ильи Костриков
Код моих документов
Они расположены в других ветвях этого репо и, по -видимому, являются хорошими примерами для использования этой кодовой базы.
- Глобальная оптимальность и конечный анализ выборки Softmax Off-Policy Critic Critic в соответствии с несоответствием распределения государства [Off-Pac-KL]
- Усеченные решительные методы временной разницы для прогнозирования и контроля [TruncatedEtd]
- Более глубокий взгляд на несоответствие дисконтирования в актерских алгоритмах [дисконтирование]
- Разрушение смертельной триады с помощью целевой сети [TargetNetwork]
- Оценка политики среднего воспитания с приближением функции [DifferialGQ]
- Политика средней варианты итерации для обучения подкреплению с неспособным рисков [MVPI]
- Обучение ретроспективным знаниям с учетом обратного подкрепления [Reverserl]
- Доказуемо сходятся с конвергентом двухкратной эсказырной актер-критики с приближением функции [COF-PAC, TD3-RANDOM]
- GradientDice: переосмысление обобщенной офлайн оценки стационарных значений [GradientDice]
- Обучение глубокому остаточному подкреплению [BI-RES-DDPG]
- Генерализованный от политического актера-критика [Geoff-Pac, TD3-Random]
- ЦАП: архитектура двойного актера для вариантов обучения [DAC]
- Квота: архитектура квантильной опции для обучения подкреплению [квота-дискет, квота-непрерывная]
- ACE: Алгоритм ансамбля актера для непрерывного контроля с поиском деревьев [ACE]