GenerativeRL_Preview скачать - GenerativeRL_Preview исходный код скачать

GenerativeRL_Preview

Другой исходный код

1.0.0

Скачать

Генеративное обучение подкрепления

Английский | 简体中文 (упрощенный китайский)

Generativerl , короткая для обучения генеративному подкреплению, является библиотекой Python для решения задач обучения подкреплению (RL) с использованием генеративных моделей, таких как диффузионные модели и модели потоков. Эта библиотека направлена на то, чтобы обеспечить основу для сочетания мощности генеративных моделей с возможностями принятия решений алгоритмами обучения подкреплению.

Genativerl_preview - это предварительная версия Generativerl , которая до сих пор находится в стадии разработки со многими экспериментальными функциями. Для стабильной версии Generativerl , пожалуйста, посетите Generativerl.

Контур

Функции
Структура структуры
Интегрированные генеративные модели
Интегрированные алгоритмы
Установка
Быстрый старт
Документация
Учебные пособия
Эталонные эксперименты

Функции

Поддержка обучения, оценки и развертывания различных генеративных моделей, включая диффузионные модели и модели потоков
Интеграция генеративных моделей для представления состояний, представления действий, обучения политике и динамического обучения модели в RL
Реализация популярных алгоритмов RL, адаптированных для генеративных моделей, таких как оптимизация политики с Q (QGPO)
Поддержка различных средств RL и тестов
Простой в использовании API для обучения и оценки

Структура структуры

Описание изображения 1

Интегрированные генеративные модели

Модели для непрерывных переменных	Сопоставление счетов	Поток сопоставление
Диффузионная модель
Линейный VP SDE	✔	✔
Генерализованный вице -президент SDE	✔	✔
Линейный SDE	✔	✔
Модель потока
Независимое соответствие условного потока		✔
Оптимальное соответствие условного потока транспорта		✔

Модели для отдельных переменных	Дискретный поток соответствует
U-Coupling/Линейный путь	✔

Интегрированные алгоритмы

Algo./models	Диффузионная модель	Модель потока
Idql	✔
QGPO	✔
Srpo	✔
Gmpo	✔	✔
Gmpg	✔	✔

Установка

Пожалуйста, установите из источника:

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

Или вы можете использовать изображение Docker:

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

Быстрый старт

Вот пример того, как обучить диффузионную модель для оптимизации политики (QGPO) в среде LunarlanderContinoury-V2 с использованием Generativerl.

Установите требуемые зависимости:

pip install ' gym[box2d]==0.23.1 '

Загрузите набор данных отсюда и сохраните его как data.npz в текущем каталоге.

Generativerl использует Wandb для ведения журнала. Он попросит вас войти в свою учетную запись, когда вы ее используете. Вы можете отключить его, работая:

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

Для получения более подробных примеров и документации, пожалуйста, обратитесь к документации Generativerl.

Документация

Полную документацию для предварительной версии Generativerl можно найти в документации Generativerl (в процессе).

Учебные пособия

Мы предоставляем несколько учебных пособий, чтобы помочь вам лучше понять Generativerl. Посмотрите больше на учебных пособиях.

Эталонные эксперименты

Мы предлагаем некоторые базовые эксперименты для оценки производительности алгоритмов обучения генеративным подкреплением. Посмотрите больше на Benchmark.

Внося

Мы приветствуем вклад в Generativerl! Если вы заинтересованы в соревнованиях, пожалуйста, обратитесь к руководству.

Цитирование

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}