stable baselines скачать - stable baselines скачать исходный код

stable baselines

Другой исходный код

1.0.0

Скачать

Предупреждение: этот пакет находится в режиме обслуживания, пожалуйста, используйте Stable-Baselines3 (SB3) для актуальной версии. Вы можете найти руководство по миграции в документации SB3.

Стабильные базовые показатели

Стабильные базовые показатели представляют собой набор улучшенных реализаций алгоритмов обучения подкреплению, основанных на базовых показателях Openai.

Вы можете прочитать подробное представление о стабильных базовых показателях в статье Medium.

Эти алгоритмы облегчат исследовательскому сообществу и промышленности воспроизвести, совершенствовать и выявлять новые идеи и создаст хорошие базовые показатели для создания проектов. Мы ожидаем, что эти инструменты будут использоваться в качестве базы, вокруг которой могут быть добавлены новые идеи, и в качестве инструмента для сравнения нового подхода с существующими. Мы также надеемся, что простота этих инструментов позволит начинающим экспериментировать с более продвинутым набором инструментов, не будучи похороненными в деталях реализации.

Примечание. Несмотря на простоту использования, стабильные базовые показатели (SB) предполагают, что у вас есть некоторые знания о обучении подкреплению (RL). Вы не должны использовать эту библиотеку без какой -либо практики. В этой степени мы предоставляем хорошие ресурсы в документации, чтобы начать работу с RL.

Основные различия с базовыми показателями Openai

Этот набор инструментов представляет собой вилку базовых показателей OpenAI, с основным структурным рефакторией и очисткой кода:

Единая структура для всех алгоритмов
PEP8 COMPARINT (Unified Code Style)
Документированные функции и классы
Больше тестов и большего покрытия кода
Дополнительные алгоритмы: SAC и TD3 (+ ее поддержка DQN, DDPG, SAC и TD3)

Функции	Стабильные базелины	Openai Базовые линии
Состояние искусства методы	✔ ⁽¹⁾	✔
Документация	✔
Пользовательские среды	✔	✔
Пользовательские политики	✔	➖ ⁽²⁾
Общий интерфейс	✔	➖ ⁽³⁾
Поддержка Tensorboard	✔	➖ ⁽⁴⁾
Ipython / Foombook Friendly	✔
PEP8 код стиль	✔	✔ ⁽⁵⁾
Пользовательский обратный вызов	✔	➖ ⁽⁶⁾

^{^(1).}
^{^{(2): в настоящее время недоступно для DDPG и только из сценария пробега.}}
^{^{(3): только через сценарий прогона.}}
^{^{(4): Рудиментарное ведение учебной информации (без потерь и график).}}
^{^{(5): Редактировать: Вы сделали это Openai! ?}}
^{^{(6): передача функции обратного вызова доступна только для DQN}}

Документация

Документация доступна онлайн: https://stable-baselines.readthedocs.io/

RL Baselines Zoo: коллекция из 100+ обученных RL -агентов

RL Базовый зоопарк. является набором предварительно обученных агентов обучения, использующих стабильные басилин.

Он также предоставляет основные сценарии для обучения, оценки агентов, настройки гиперпараметров и записи видео.

Цели этого хранилища:

Предоставьте простой интерфейс для тренировок и наслаждения агентами RL
Сравните различные алгоритмы обучения подкреплению
Предоставьте настроенные гиперпараметры для каждой среды и алгоритма RL
Веселитесь с обученными агентами!

Github Repo: https://github.com/araffin/rl-baselines-zoo

Документация: https://stable-baselines.readthedocs.io/en/master/guide/rl_zoo.html

Установка

ПРИМЕЧАНИЕ. Стабильные базолины поддерживают версии TensorFlow от 1,8,0 до 1,14,0. Поддержка TensorFlow 2 API запланирована.

Предварительные условия

Базовые линии требуют Python3 (> = 3,5) с заголовками разработки. Вам также понадобятся системные пакеты Cmake, OpenMPI и Zlib. Они могут быть установлены следующим образом

Ubuntu

sudo apt-get update && sudo apt-get install cmake libopenmpi-dev python3-dev zlib1g-dev

Mac OS X.

Установка системных пакетов на Mac требует домашнего завода. С установленным Homebrew запустите следующее:

brew install cmake openmpi

Windows 10

Чтобы установить стабильные базелины в Windows, посмотрите на документацию.

Установите с помощью PIP

Установите стабильный пакет базовых показателей:

 pip install stable-baselines[mpi]

Это включает в себя дополнительную зависимость от MPI, обеспечение алгоритмов DDPG, GAIL, PPO1 и TRPO. Если вам не нужны эти алгоритмы, вы можете установить без MPI:

 pip install stable-baselines

Пожалуйста, прочитайте документацию для получения более подробной информации и альтернатив (из источника, используя Docker).

Пример

Большая часть библиотеки пытается следовать синтаксису, подобному Sklearn, для алгоритмов обучения подкрепления.

Вот быстрый пример того, как тренировать и запустить PPO2 в среде расщепления:

 import gym

from stable_baselines . common . policies import MlpPolicy
from stable_baselines . common . vec_env import DummyVecEnv
from stable_baselines import PPO2

env = gym . make ( 'CartPole-v1' )
# Optional: PPO2 requires a vectorized environment to run
# the env is now wrapped automatically when passing it to the constructor
# env = DummyVecEnv([lambda: env])

model = PPO2 ( MlpPolicy , env , verbose = 1 )
model . learn ( total_timesteps = 10000 )

obs = env . reset ()
for i in range ( 1000 ):
    action , _states = model . predict ( obs )
    obs , rewards , dones , info = env . step ( action )
    env . render ()

env . close ()

Или просто тренируйте модель с одним лайнером, если среда зарегистрирована в спортзале и если политика зарегистрирована:

 from stable_baselines import PPO2

model = PPO2 ( 'MlpPolicy' , 'CartPole-v1' ). learn ( 10000 )

Пожалуйста, прочитайте документацию для получения дополнительных примеров.

Попробуйте онлайн с ноутбуками Colab!

Все следующие примеры могут быть выполнены в Интернете, используя записные книжки Google Colab:

Полный учебник
Все ноутбуки
Начиная
Обучение, сохранение, загрузка
Многопроцессорная
Мониторинг обучения и построения
Атари игры
RL Базовый зоопарк

Реализованные алгоритмы

Имя	Рефактор ⁽¹⁾	Повторяется	`Box`	`Discrete`	`MultiDiscrete`	`MultiBinary`	Многообразная обработка
A2C	✔	✔	✔	✔	✔	✔	✔
Застенчивый	✔	✔	⁽⁵⁾	✔			✔
Acktr	✔	✔	✔	✔			✔
DDPG	✔		✔				✔ ⁽⁴⁾
Дкн	✔			✔
Гейл ⁽²⁾	✔		✔	✔			✔ ⁽⁴⁾
Ее ⁽³⁾	✔		✔	✔		✔
PPO1	✔		✔	✔	✔	✔	✔ ⁽⁴⁾
PPO2	✔	✔	✔	✔	✔	✔	✔
Мешок	✔		✔
TD3	✔		✔
Trpo	✔		✔	✔	✔	✔	✔ ⁽⁴⁾

^{^{(1): Был ли алгоритм рефактован в соответствии с классом BaseRLModel .}}
^{^{(2): реализовано только для TRPO.}}
^{^{(3): повторно внедрено с нуля, теперь поддерживает DQN, DDPG, SAC и TD3}}
^{^{(4): Multi обработка с MPI.}}
^{^{(5): Тодо, в области проекта.}}

Примечание. Мягкий актер-критический (SAC) и двойной DDPG (TD3) не были частью исходных базовых показателей, и ее переосмысливали с нуля.

Действия gym.spaces :

Box : n-размерная коробка, которая содержит каждую точку в пространстве действий.
Discrete : список возможных действий, в котором может использоваться каждый время, который можно использовать только одно из действий.
MultiDiscrete : список возможных действий, в котором может использоваться каждый временный временный интерфейс каждого действия каждого дискретного набора.
MultiBinary : список возможных действий, в котором каждый временный временный стаж может использоваться в любой комбинации.

Mujoco

В некоторых примерах базовых показателей используются физический симулятор Mujoco (Multi-Joint Dynamics в контакте), который является проприетарным и требует двоичных файлов и лицензии (временная 30-дневная лицензия может быть получена с www.mujoco.org). Инструкции по настройке MUJOCO можно найти здесь

Тестирование установки

Все модульные тесты в базовых показателях можно запускать с помощью Pytest Runner:

 pip install pytest pytest-cov
make pytest

Проекты с использованием стабильных баселин

Мы стараемся сохранить список проекта, используя стабильные базелины в документации, сообщите нам, когда вы хотите, чтобы ваш проект отображался на этой странице;)

Ссылаясь на проект

Написать этот репозиторий в публикациях:

 @misc{stable-baselines,
  author = {Hill, Ashley and Raffin, Antonin and Ernestus, Maximilian and Gleave, Adam and Kanervisto, Anssi and Traore, Rene and Dhariwal, Prafulla and Hesse, Christopher and Klimov, Oleg and Nichol, Alex and Plappert, Matthias and Radford, Alec and Schulman, John and Sidor, Szymon and Wu, Yuhuai},
  title = {Stable Baselines},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/hill-a/stable-baselines}},
}

Содействия

Стабильные базелины в настоящее время поддерживаются Эшли Хилл (он же @Hill-A), Антонином Раффином (он же @Araffin), Максимилиан Эрнест (он же @ernestum), Адам Глив (@Adamglave) и Анси Канерванто (@Miffyli).

Важное примечание: мы не проводим техническую поддержку и не консультируемся и не отвечаем на личные вопросы по электронной почте.

Как внести свой вклад

Для любого заинтересованного в том, чтобы сделать базовые показатели лучше, есть еще некоторая документация, которая должна быть сделана. Если вы хотите внести свой вклад, сначала прочитайте ancoming.md -гид.

Благодарности

Стабильные базовые показатели были созданы в лаборатории робототехники U2IS (команда Inria Flowers) в Ensta Paristech.

Кредиты логотипа: LM Tenkes

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-03-04
размер 2.38MB
От Github

Связанные приложения

stable diffusion webui forge

2024-11-08
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
stable diffusion webui

2024-11-01

stable baselines

Стабильные базовые показатели

Основные различия с базовыми показателями Openai

Документация

RL Baselines Zoo: коллекция из 100+ обученных RL -агентов

Установка

Предварительные условия

Ubuntu

Mac OS X.

Windows 10

Установите с помощью PIP

Пример

Попробуйте онлайн с ноутбуками Colab!

Реализованные алгоритмы

Mujoco

Тестирование установки

Проекты с использованием стабильных баселин

Ссылаясь на проект

Содействия

Как внести свой вклад

Благодарности

stable diffusion webui forge

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

stable diffusion webui

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express