GenerativeRL_Preview下載GenerativeRL

GenerativeRL_Preview

其他源碼

1.0.0

下載

生成的增強學習

英語| 簡體中文（簡化中文）

Generativerl是生成增強學習的縮寫，是使用生成模型（例如擴散模型和流量模型）來解決增強學習（RL）問題的Python庫。該圖書館旨在提供一個將生成模型的力量與強化學習算法的決策能力相結合的框架。

Generativerl_preview是Generativerl的預覽版，它仍在快速開發中，具有許多實驗功能。對於穩定版本的Generativerl ，請訪問Generativerl。

大綱

特徵
框架結構
集成生成模型
集成算法
安裝
快速開始
文件
教程
基準實驗

特徵

支持培訓，評估和部署各種生成模型，包括擴散模型和流程模型
在RL中將生成模型集成用於國家代表，行動表示，政策學習和動態模型學習
為生成模型量身定制的流行RL算法，例如Q引導的策略優化（QGPO）
支持各種RL環境和基準
易於使用的API用於培訓和評估

框架結構

圖像描述1

集成生成模型

連續變量的模型	得分匹配	流匹配
擴散模型
線性VP SDE	✔	✔
廣義VP SDE	✔	✔
線性SDE	✔	✔
流模型
獨立的條件流匹配		✔
最佳運輸條件流程匹配		✔

離散變量的模型	離散流匹配
U耦合/線性路徑	✔

集成算法

算法/模型	擴散模型	流模型
IDQL	✔
QGPO	✔
srpo	✔
GMPO	✔	✔
GMPG	✔	✔

安裝

請從來源安裝：

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

或者您可以使用Docker映像：

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

快速開始

這是如何使用Generativerl訓練在Lunarlanderconcontinuum-V2環境中訓練Q引導策略優化（QGPO）的擴散模型的示例。

安裝所需的依賴項：

pip install ' gym[box2d]==0.23.1 '

從此處下載數據集並將其保存為當前目錄中的data.npz 。

Generativerl使用wandb進行記錄。使用該帳戶時，它會要求您登錄到您的帳戶。您可以通過運行來禁用它：

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

有關更詳細的示例和文檔，請參閱Generativerl文檔。

文件

可以在Generativerl文檔（正在進行的）上找到Generativerl Preview版本的完整文檔。

教程

我們提供幾個案例教程，以幫助您更好地了解Generativerl。在教程中查看更多。

基準實驗

我們提供一些基線實驗來評估生成增強學習算法的性能。在基準測試中查看更多。

貢獻

我們歡迎對Generativerl的貢獻！如果您有興趣貢獻，請參閱《貢獻指南》。

引用

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}

執照

Generativerl由Apache許可證2.0獲得許可。有關更多詳細信息，請參見許可證。

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-09
大小 5.21MB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部