Грокикинг глубокий подкрепление обучение
Примечание. На данный момент поддерживается только запуск кода из контейнера Docker (ниже). Docker позволяет создавать одну среду, которая с большей вероятностью будет работать над всеми системами. По сути, я устанавливаю и настраиваю все пакеты для вас, кроме самого Docker, и вы просто запускаете код в тестируемой среде.
Чтобы установить Docker, я рекомендую веб -поиск «Установка Docker на <вашу ОС здесь>». Чтобы запустить код на графическом процессоре, вы должны дополнительно установить Nvidia-Docker. Nvidia Docker позволяет использовать графические процессоры хоста внутри контейнеров Docker. После того, как у вас будет установлен Docker (и Nvidia-Docker, если используете графический процессор), следуйте трем шагам ниже.
Запуск кода
- Клонировать это репо:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - Потяните изображение GDRL с:
docker pull mimoralea/gdrl:v0.14 - Раскрутить контейнер:
- На Mac или Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - В окнах:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - ПРИМЕЧАНИЕ. Используйте
nvidia-docker или добавить --gpus all After --rm в команду, если вы используете графический процессор.
- Откройте браузер и перейдите на URL, показанный в терминале (вероятно, будет: http: // localhost: 8888). Пароль:
gdrl
О книге
Сайт книги
https://www.manning.com/books/grokking-deep-reinforment-learning
Таблица контента
- Введение в обучение глубокому подкреплению
- Математические основы обучения подкрепления
- Баланс непосредственных и долгосрочных целей
- Балансирование сбора и использования информации
- Оценка поведения агентов
- Улучшение поведения агентов
- Достижение целей более эффективно и эффективно
- Введение в обучение глубокому подкреплению на основе стоимости
- Более стабильные методы, основанные на ценности
- Образец-эффективные методы, основанные на значениях
- Политические и критические методы
- Продвинутые актерские критические методы
- К искусственному общему интеллекту
Подробная таблица содержания
1. Введение в обучение глубокому подкреплению
- (Livebook)
- (Нет записной книжки)
2. Математические основы обучения подкреплению
- (Livebook)
- (Блокнот)
- Реализации нескольких MDP:
- Бандит прогулка
- Bandit Slappery Walk
- Сколпейская прогулка три
- Случайная прогулка
- Рассел и Норвиг Gridworld от Aima
- Замороженная
- Frozenlake8x8
3. Балансировать непосредственные и долгосрочные цели
- (Livebook)
- (Блокнот)
- Реализации методов поиска оптимальной политики:
- Оценка политики
- Улучшение политики
- Политическая итерация
- Ценностная итерация
4. Балансирование сбора и использования информации
- (Livebook)
- (Блокнот)
- Реализации стратегий разведки для проблем с бандитской:
- Случайный
- Жадный
- Электронный
- Электронный север с линейно разрушающимся эпсилоном
- Электронный с экспоненциально разлагающимся эпсилоном
- Оптимистическая инициализация
- Softmax
- Верхняя уверенность связана
- Байесовский
5. Оценка поведения агентов
- (Livebook)
- (Блокнот)
- Внедрение алгоритмов, которые решают проблему прогнозирования (оценка политики):
- Основное предсказание первого посещения Монте-Карло
- На политическом предсказании каждого виза.
- Прогноз временной диффференции (TD)
- N-шаг прогнозирование височной диффференции (N-шаг TD)
- TD (λ)
6. Повышение поведения агентов
- (Livebook)
- (Блокнот)
- Внедрение алгоритмов, которые решают проблему управления (улучшение политики):
- На политике первого посещения Monte-Carlo Control
- На политике все визуализации Monte-Carlo Control
- На политике TD Control: Sarsa
- Вне политики контроль TD: Q-обучение
- Двойное Q-обучение
7. достижение целей более эффективно и эффективно
- (Livebook)
- (Блокнот)
- Внедрение более эффективных и эффективных алгоритмов обучения подкреплению:
- Sarsa (λ) с заменой следы
- Сарса (λ) с накоплениями следов
- Q (λ) с заменой трасс
- Q (λ) с накоплениями следов
- Dyna-q
- Отбор проб траектории
8. Введение в обучение на основе стоимости глубокого подкрепления
- (Livebook)
- (Блокнот)
- Внедрение основополагающей стоимости обучения в области глубокого подкрепления базовая линия:
- Нейронная установленная Q-итерация (NFQ)
9. Более стабильные методы, основанные на стоимости
- (Livebook)
- (Блокнот)
- Реализация «классических» методов обучения на основе ценностей:
- Глубокие Q-NetWorks (DQN)
- Двойной глубокий Q-NetWorks (DDQN)
10. Методы, основанные на выборе, основанные на значении
- (Livebook)
- (Блокнот)
- Внедрение основных улучшений для методов обучения на основе ценностей:
- Dueling Deep Q-Networks (Dueling DQN)
- Приоритетный опыт воспроизведения (PER)
11. Методы политики и критического актера
- (Livebook)
- (Блокнот)
- Внедрение классических политических и актерских критических методов обучения в области глубокого подкрепления:
- Градиенты политики без стоимости функции и возврата Монте-Карло (подкрепляют)
- Градиенты политики с функцией значения Базовая линия, обученная с возвратом Монте-Карло (VPG)
- Асинхронное преимущество актер-критик (A3C)
- Общая оценка преимуществ (GAE)
- [Синхронный] Advantage Actor-Critic (A2C)
12.
- (Livebook)
- (Блокнот)
- Внедрение передовых методов критического актера:
- Глубокий детерминированный градиент политики (DDPG)
- Двойной задержку с глубоким детерминированным градиентом политики (TD3)
- Мягкий актер-критик (SAC)
- Проксимальная оптимизация политики (PPO)
13. На пути к искусственному общему интеллекту
- (Livebook)
- (Нет записной книжки)