rl baselines3 zoo скачать - rl baselines3 zoo Скачать исходный код

rl baselines3 zoo

Другой исходный код

v2.4.0: CrossQ and Gymnasium v1.0 support

Скачать

RL BASELINES3 ЗОООПА

RL Baselines3 зоопарк - это учебная рамка для обучения подкреплению (RL), используя стабильные базовые исчисления3.

Он предоставляет сценарии для обучения, оценки агентов, настройки гиперпараметров, построения результатов и записи видео.

Кроме того, он включает в себя набор настроенных гиперпараметров для общей среды и алгоритмов RL, а также агенты, обученные этими настройками.

Мы ищем участников, чтобы завершить коллекцию!

Цели этого хранилища:

Предоставьте простой интерфейс для тренировок и наслаждения агентами RL
Сравните различные алгоритмы обучения подкреплению
Предоставьте настроенные гиперпараметры для каждой среды и алгоритма RL
Веселитесь с обученными агентами!

Это версия SB3 оригинального SB2 RL-Zoo.

Примечание. Хотя SB3 и RL зоопарк совместимы с Numpy> = 2,0, вам понадобится Numpy <2, чтобы запустить агенты на Envs Pybullet (см. Выпуск).

Документация

Документация доступна онлайн: https://rl-baselines3-zoo.readthedocs.io/

Установка

Минимальная установка

Из источника:

 pip install -e .

Как пакет Python:

 pip install rl_zoo3

Примечание rl_zoo3 train python train.py rl_zoo3 сделать python -m rl_zoo3.train

Полная установка (с дополнительными эвицами и тестами) зависимостей)

 apt-get install swig cmake ffmpeg
pip install -r requirements.txt
pip install -e .[plots,tests]

Пожалуйста, смотрите документацию по стабильной базовой основе3 для альтернатив для установки стабильных базовых показателей3.

Тренировать агента

Гиперпараметры для каждой среды определены в hyperparameters/algo_name.yml .

Если среда существует в этом файле, то вы можете обучить агента, используя:

 python train.py --algo algo_name --env env_id

Оцените агента каждые 10000 шагов, используя 10 эпизодов для оценки (используя только одну оценку Env):

 python train.py --algo sac --env HalfCheetahBulletEnv-v0 --eval-freq 10000 --eval-episodes 10 --n-eval-envs 1

В документации доступны больше примеров.

Интеграции

Зоопарк RL имеет некоторую интеграцию с другими библиотеками/сервисами, такими как веса и предвзятость для отслеживания экспериментов или обнимающего лица для хранения/обмена обученными моделями. Вы можете узнать больше в выделенном разделе документации.

Сюжет сценарии

Пожалуйста, смотрите выделенный раздел документации.

Наслаждайтесь обученным агентом

Примечание. Чтобы загрузить репо с обученными агентами, вы должны использовать git clone --recursive https://github.com/DLR-RM/rl-baselines3-zoo чтобы клонировать подмодуль.

Если обученный агент существует, то вы можете увидеть его в действии, используя:

 python enjoy.py --algo algo_name --env env_id

Например, наслаждайтесь A2C при прорыве во время 5000 временных точек:

 python enjoy.py --algo a2c --env BreakoutNoFrameskip-v4 --folder rl-trained-agents/ -n 5000

Гиперпараметры настройки

Пожалуйста, смотрите выделенный раздел документации.

Пользовательская конфигурация

Пожалуйста, смотрите выделенный раздел документации.

Текущая коллекция: 200+ обученных агентов!

Окончательная производительность обученных агентов может быть найдена в benchmark.md . Чтобы вычислить их, просто запустите python -m rl_zoo3.benchmark .

Список и видео обученных агентов можно найти на нашей странице объятия: https://huggingface.co/sb3

Примечание. Это не количественный эталон, поскольку он соответствует только одному пробегу (CF выпуск № 38). Этот эталон предназначен для проверки алгоритма (максимальной) производительности, найти потенциальные ошибки, а также позволить пользователям иметь доступ к предварительному агентам.

Атари игры

7 Игр Atari от Bendalai Benchmark (версии Noframeskip-V4).

RL Algo	Beamrider	Прорыв	Эндуро	Почетный	Qbert	SeaQuest	SpaceInvaders
A2C	✔	✔	✔	✔	✔	✔	✔
PPO	✔	✔	✔	✔	✔	✔	✔
Дкн	✔	✔	✔	✔	✔	✔	✔
QR-DQN	✔	✔	✔	✔	✔	✔	✔

Дополнительные игры Atari (будут завершены):

RL Algo	Mspacman	Астероиды	Roadrunner
A2C	✔	✔	✔
PPO	✔	✔	✔
Дкн	✔	✔	✔
QR-DQN	✔	✔	✔

Классические среды управления

RL Algo	Cartpole-V1	Mountaincar-V0	Acrobot-V1	Маятник-V1	Mountaincarcarcontinount-V0
Арс	✔	✔	✔	✔	✔
A2C	✔	✔	✔	✔	✔
PPO	✔	✔	✔	✔	✔
Дкн	✔	✔	✔	N/a	N/a
QR-DQN	✔	✔	✔	N/a	N/a
DDPG	N/a	N/a	N/a	✔	✔
Мешок	N/a	N/a	N/a	✔	✔
TD3	N/a	N/a	N/a	✔	✔
TQC	N/a	N/a	N/a	✔	✔
Trpo	✔	✔	✔	✔	✔

Box2d среда

RL Algo	Bipedalwalker-V3	Lunarlander-V2	LunarlanderContinount-V2	Bipedalwalkerhardcore-V3	Carricing-V0
Арс		✔		✔
A2C	✔	✔	✔	✔
PPO	✔	✔	✔	✔
Дкн	N/a	✔	N/a	N/a	N/a
QR-DQN	N/a	✔	N/a	N/a	N/a
DDPG	✔	N/a	✔
Мешок	✔	N/a	✔	✔
TD3	✔	N/a	✔	✔
TQC	✔	N/a	✔	✔
Trpo		✔	✔

Пиблет среда

См. Похоже на Mujoco Envs, но с ~~бесплатно~~ (Mujoco 2.1.0+ теперь бесплатно!) Легко установить симулятор: Pybulet. Мы используем версию BulletEnv-v0 .

Примечание. Эти среды получены из Roboschool и сложнее, чем версия Mujoco (см. Выпуск Pybullet)

RL Algo	Walker2d	Получета	Муравей	Охват	Бункер
Арс
A2C	✔	✔	✔	✔	✔
PPO	✔	✔	✔	✔	✔
DDPG	✔	✔	✔	✔	✔
Мешок	✔	✔	✔	✔	✔
TD3	✔	✔	✔	✔	✔
TQC	✔	✔	✔	✔	✔
Trpo	✔	✔	✔	✔	✔

Pybullet envs (продолжение)

RL Algo	Минитавра	Minitaurduck	Inverteddoublependulum	Invertedpendulumswingup
A2C
PPO
DDPG
Мешок
TD3
TQC

Моджоко среда

RL Algo	Walker2d	Получета	Муравей	Пловца	Бункер	Гуманоид
Арс	✔	✔	✔	✔	✔
A2C	✔	✔	✔	✔	✔	✔
PPO	✔	✔	✔	✔	✔
DDPG
Мешок	✔	✔	✔	✔	✔	✔
TD3	✔	✔	✔	✔	✔	✔
TQC	✔	✔	✔	✔	✔	✔
Trpo	✔	✔	✔	✔	✔

Робототехника

Смотрите https://gym.openai.com/envs/#robotics и #71

Версия Mujoco: 1.50.1.0.

Мы использовали среды V1.

RL Algo	FetchReach	FetchPickandPlace	Fetchpush	FetchSlide
Ее+TQC	✔	✔	✔	✔

Панда робот среда

Смотрите https://github.com/qgallouedec/panda-gym/.

Похоже на Envs Mujoco Robotics, но с ~~свободный~~ Легко установить симулятор: Pybullet.

Мы использовали среды V1.

RL Algo	Pandareach	Pandapickand Place	Пандапуш	Пандаслид	Pandastack
Ее+TQC	✔	✔	✔	✔	✔

Минигридная эвина

Смотрите https://github.com/farama-foundation/minigrid. Простая, легкая и быстрая спортивная среда реализация знаменитого сетчатого мира.

RL Algo	Пустой проводник-5x5	Четырехмеры	Дверная клавиша-5х5	MultiRoom-N4-S5	Fetch-5x5-N2	Gotodoor-5x5	Путнар-6x6-N2	Redbluedoors-6x6	Запертая комната	KeyCorridors3r1	Разблокировать	Obructedmaze-2dlh
A2C
PPO	✔	✔	✔	✔	✔	✔	✔	✔	✔	✔	✔	✔
Дкн
QR-DQN
Trpo

Всего существует 22 группы окружающей среды (вариации для каждого).

Колаб ноутбук: попробуйте онлайн!

Вы можете обучать агентов онлайн, используя ноутбук Colab.

Передача аргументов в интерактивном сеансе

Зоопарк не предназначен для выполнения из интерактивного сеанса (например, ноутбуки Jupyter, ipython), однако это можно сделать путем изменения sys.argv и добавления желаемых аргументов.

Пример

 import sys
from rl_zoo3 . train import train

sys . argv = [ "python" , "--algo" , "ppo" , "--env" , "MountainCar-v0" ]

train ()

Тесты

Чтобы запустить тесты, сначала установите Pytest, затем:

 make pytest

То же самое для проверки типов с помощью Pytype:

 make type

Ссылаясь на проект

Написать этот репозиторий в публикациях:

 @misc { rl-zoo3 ,
  author = { Raffin, Antonin } ,
  title = { RL Baselines3 Zoo } ,
  year = { 2020 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/DLR-RM/rl-baselines3-zoo} } ,
}

Внося

Если вы обучили агента, которого нет в зоопарке RL, пожалуйста, отправьте запрос на привлечение (содержащий гиперпараметры и счет).

Участники

Мы хотели бы поблагодарить наших участников: @iandanforth, @tatsubori @shade5 @mcres, @ernestum, @qgallouedec

Расширять

Дополнительная информация

Версия v2.4.0: CrossQ and Gymnasium v1.0 support
Тип Другой исходный код
Время обновления 2025-03-04
размер 2.03MB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
Игра Зоопарк

2024-03-29
Зоопарк капибары, китайская версия

2024-01-25
Герой Паркура: Забег в зоопарк

2023-06-05
Zoo Tycoon: Лучшая коллекция животных

2022-08-01
Планета Зоопарк

2022-07-27