Примечание: Пожалуйста, используйте следующую версию, SLM-Lab.
Openai Lab документация
Структура экспериментов для обучения подкрепления с использованием спортзала Openai, Tensorflow и Keras.
Lab Openai создана для обучения подкреплению (RL), как наука - теоретизируйте, экспериментируйте . Он обеспечивает легкий интерфейс для спортзала OpenAI и кера, с автоматизированной структурой экспериментов и оценки.
В Openai Lab мы могли бы сосредоточиться на изучении основных элементов обучения подкрепления, таких как алгоритм, политика, память и настройка параметров. Это позволяет нам эффективно создавать агенты, используя существующие компоненты с реализациями из исследовательских идей. Затем мы могли бы систематически проверить гипотезы исследования, проведя эксперименты.
Узнайте больше о проблемах исследования, которые лаборатория обращается к мотивам. В конечном счете, лаборатория является обобщенной основой для обучения подкреплению, агностиком спортзала Openai и керас. Например, реализации на основе Pytorch находятся на дорожной карте.
Список основных алгоритмов RL реализован/запланирован.
Чтобы увидеть их результаты против спортивного зала Openai, перейдите в матрицу фитнеса .
| алгоритм | выполнение | Оценка оценки (ожидая) |
|---|---|---|
| Дкн | Дкн | - |
| Двойной DQN | Doubledqn | - |
| Дуэль DQN | - | - |
| Сарса | Глубярса | - |
| Вне политики сарса | Offpolicysarsa | - |
| За (приоритетный опыт повторения) | Приоритет Experiencereplay | - |
| CEM (метод поперечной энтропии) | следующий | - |
| Подкреплять | - | - |
| DPG (детерминированный градиент политики). | Актерцир | - |
| DDPG (Deep-DPG) актер-критик с целевыми сетями | DDPG | - |
| A3C (Asynchronous Advantage Actor-Critic) | - | - |
| Дайна | следующий | - |
| Trpo | - | - |
| Q*(Lambda) | - | - |
| Посмотреть (Lambda) | - | - |
| Нейронный эпизодический контроль (NEC) | - | - |
| EWC (консолидация упругого веса) | - | - |
Далее см. Установку и перейдите к QuickStart.
Временный разбор лаборатории Openai, Решение Cartpole-V0.