Вы хотите, чтобы агент RL хорошо двигался дальше Атари?
Радуга - это все, что вам нужно!
Это пошаговое руководство от DQN до радуги. Каждая глава содержит как теоретические фон, так и объектно-ориентированную реализацию. Просто выберите любую тему, в которой вы заинтересованы, и учитесь! Вы можете выполнить их сразу же с Colab даже на вашем смартфоне.
Пожалуйста, не стесняйтесь открывать проблему или запрос, если у вас есть идея сделать ее лучше. :)
Если вы хотите учебник для методов градиента политики, см. PG - это все, что вам нужно.
Содержимое
- Dqn [nbviewer] [colab]
- Doubledqn [nbviewer] [colab]
- Приоритет Experiencereplay [nbviewer] [colab]
- Duelingnet [nbviewer] [colab]
- Noisynet [nbviewer] [colab]
- Categoricaldqn [nbviewer] [colab]
- N-steplearning [nbviewer] [colab]
- Rainbow [nbviewer] [colab]
Предварительные условия
Этот репозиторий тестируется с помощью Python 3.8+
git clone https://github.com/Curt-Park/rainbow-is-all-you-need.git
cd rainbow-is-all-you-need
make setup
Как бежать
Связанные документы
- V. Mnih et al., «Контроль на уровне человека посредством глубокого обучения подкреплению». Nature, 518 (7540): 529–533, 2015.
- Ван Хассельт и др., «Глубокое обучение подкреплению с двойным Q-обучением». Arxiv Preprint arxiv: 1509.06461, 2015.
- T. Schaul et al., «Приоритетный опыт воспроизведения». Arxiv Preprint arxiv: 1511.05952, 2015.
- Z. Wang et al., «Дуэльные сетевые архитектуры для глубокого обучения подкреплению». Arxiv Preprint arxiv: 1511.06581, 2015.
- М. Фортунато и др., «Шумные сети для исследования». Arxiv Preprint arxiv: 1706.10295, 2017.
- MG Bellemare et al., «Распределительная перспектива на обучение подкреплению». Arxiv Preprint arxiv: 1707.06887, 2017.
- Р.С. Саттон, «Учимся прогнозировать методы временных различий». Машинное обучение, 3 (1): 9–44, 1988.
- M. Hessel et al., «Радуга: сочетание улучшений в обучении глубоким подкреплением». Arxiv Preprint arxiv: 1710.02298, 2017.
Участники
Спасибо этим замечательным людям (ключ эмодзи):
Jinwoo Park (curt)
| Кюнхван Ким
| Вэй Чен ? | Ван Лей ? | Лейаф
| Ахмадф
| Роберто Шиавоне
|
Дэвид Юань
| Dhanushka2001
|
Этот проект следует за спецификацией всех контролей. Взносы любого вида приветствуются!