Descargar GenerativeRL_Preview - GenerativeRL_Preview código fuente descargar

GenerativeRL_Preview

Otro código fuente

1.0.0

Descargar

Aprendizaje de refuerzo generativo

Inglés | 简体中文 (chino simplificado)

Generativerl , abreviatura de un aprendizaje de refuerzo generativo, es una biblioteca de Python para resolver problemas de aprendizaje de refuerzo (RL) utilizando modelos generativos, como modelos de difusión y modelos de flujo. Esta biblioteca tiene como objetivo proporcionar un marco para combinar el poder de los modelos generativos con las capacidades de toma de decisiones de los algoritmos de aprendizaje de refuerzo.

Generativerl_Preview es una versión previa de Generativerl , que todavía está en un desarrollo rápido con muchas características experimentales. Para la versión estable de Generativerl , visite Generativerl.

Describir

Características
Estructura marco
Modelos generativos integrados
Algoritmos integrados
Instalación
Comienzo rápido
Documentación
Tutoriales
Experimentos de referencia

Características

Soporte para capacitación, evaluación e implementación de diversos modelos generativos, incluidos modelos de difusión y modelos de flujo
Integración de modelos generativos para representación estatal, representación de acción, aprendizaje de políticas y aprendizaje de modelos dinámicos en RL
Implementación de algoritmos RL populares adaptados para modelos generativos, como la optimización de políticas guiadas por Q (QGPO)
Soporte para varios entornos RL y puntos de referencia
API fácil de usar para capacitación y evaluación

Estructura marco

Descripción de la imagen 1

Modelos generativos integrados

Modelos para variables continuas	Partida de puntaje	Coincidencia de flujo
Modelo de difusión
VP lineal SDE	✔	✔
VP generalizado SDE	✔	✔
SDE lineal	✔	✔
Modelo de flujo
Coincidencia de flujo condicional independiente		✔
Matriota de flujo condicional de transporte óptimo		✔

Modelos para variables discretas	Coincidencia de flujo discreto
Acoplamiento en U/ruta lineal	✔

Algoritmos integrados

Algo./modeles	Modelo de difusión	Modelo de flujo
IDQL	✔
QGPO	✔
SRPO	✔
GMPO	✔	✔
Gmpg	✔	✔

Instalación

Instale desde la fuente:

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

O puede usar la imagen Docker:

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

Comienzo rápido

Aquí hay un ejemplo de cómo capacitar a un modelo de difusión para la optimización de políticas guiadas por Q (QGPO) en el entorno Lunarlandercontinuous-V2 utilizando Generativerl.

Instale las dependencias requeridas:

pip install ' gym[box2d]==0.23.1 '

Descargue el conjunto de datos desde aquí y guárdelo como data.npz en el directorio actual.

Generativerl usa WandB para registrar. Le pedirá que inicie sesión en su cuenta cuando la use. Puede deshabilitarlo ejecutando:

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

Para ver ejemplos y documentación más detallados, consulte la documentación de Generativerl.

Documentación

La documentación completa para la versión de vista previa de Generativerl se puede encontrar en GenerAtiverl Documation (en progreso).

Tutoriales

Proporcionamos varios tutoriales de casos para ayudarlo a comprender mejor a Generativerl. Ver más en los tutoriales.

Experimentos de referencia

Ofrecemos algunos experimentos de referencia para evaluar el rendimiento de los algoritmos de aprendizaje de refuerzo generativo. Ver más en Benchmark.

Que contribuye

¡Agradecemos contribuciones a Generativerl! Si está interesado en contribuir, consulte la guía contribuyente.

Citación

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}

Licencia

Generativerl tiene licencia bajo la licencia Apache 2.0. Vea la licencia para más detalles.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-09
tamaño 5.21MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo