GenerativeRL_Preview Download - GenerativeRL_Preview Code source Télécharger

GenerativeRL_Preview

Autre code source

1.0.0

Télécharger

Apprentissage génératif de renforcement

Anglais | 简体中文 (chinois simplifié)

Generativerl , abréviation de l'apprentissage en renforcement génératif, est une bibliothèque Python pour résoudre les problèmes d'apprentissage par renforcement (RL) utilisant des modèles génératifs, tels que les modèles de diffusion et les modèles d'écoulement. Cette bibliothèque vise à fournir un cadre pour combiner la puissance des modèles génératifs avec les capacités de prise de décision des algorithmes d'apprentissage par renforcement.

Generativerl_preview est une version d'aperçu de Generativerl , qui est toujours en cours de développement rapide avec de nombreuses fonctionnalités expérimentales. Pour une version stable de Generativerl , veuillez visiter Generativerl.

Contour

Caractéristiques
Structure du cadre
Modèles génératifs intégrés
Algorithmes intégrés
Installation
Démarrage rapide
Documentation
Tutoriels
Expériences de référence

Caractéristiques

Soutien à la formation, à l'évaluation et au déploiement de modèles génératifs divers, y compris des modèles de diffusion et des modèles de flux
Intégration de modèles génératifs pour la représentation de l'État, la représentation de l'action, l'apprentissage politique et l'apprentissage des modèles dynamiques dans RL
Implémentation d'algorithmes RL populaires adaptés aux modèles génératifs, tels que l'optimisation des politiques guidés par Q (QGPO)
Prise en charge de divers environnements RL et repères
API facile à utiliser pour la formation et l'évaluation

Structure du cadre

Description de l'image 1

Modèles génératifs intégrés

Modèles de variables continues	Match de score	Correspondance de flux
Modèle de diffusion
VP linéaire SDE	✔	✔
VP généralisé SDE	✔	✔
SDE linéaire	✔	✔
Modèle de flux
Correspondance de flux conditionnel indépendant		✔
Correspondance optimale du débit conditionnel de transport		✔

Modèles de variables discrètes	Correspondance de débit discrète
Coulage en U / chemin linéaire	✔

Algorithmes intégrés

Algo.	Modèle de diffusion	Modèle de flux
Idql	✔
QGPO	✔
SRPO	✔
GMPO	✔	✔
GMPG	✔	✔

Installation

Veuillez installer à partir de la source:

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

Ou vous pouvez utiliser l'image Docker:

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

Démarrage rapide

Voici un exemple de la façon de former un modèle de diffusion pour l'optimisation des politiques guidés par Q (QGPO) dans l'environnement LunarlanderContinu-V2 en utilisant Generativerl.

Installez les dépendances requises:

pip install ' gym[box2d]==0.23.1 '

Téléchargez l'ensemble de données à partir d'ici et enregistrez-les en tant que data.npz dans le répertoire actuel.

Generativerl utilise WANDB pour la journalisation. Il vous demandera de vous connecter à votre compte lorsque vous l'utilisez. Vous pouvez le désactiver en fonctionnant:

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

Pour des exemples et une documentation plus détaillés, veuillez vous référer à la documentation Generativerl.

Documentation

La documentation complète de la version d'aperçu Generativerl peut être trouvée dans la documentation Generativerl (en cours).

Tutoriels

Nous fournissons plusieurs tutoriels de cas pour vous aider à mieux comprendre Generativerl. Voir plus sur les tutoriels.

Expériences de référence

Nous proposons quelques expériences de référence pour évaluer les performances des algorithmes génératifs d'apprentissage par renforcement. Voir plus à Benchmark.

Contributif

Nous saluons les contributions à Generativerl! Si vous êtes intéressé à contribuer, veuillez vous référer au guide de contribution.

Citation

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}

Licence

Generativerl est concédé sous licence Apache 2.0. Voir la licence pour plus de détails.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-09
taille 5.21MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout