GenerativeRL_PreviewダウンロードGenerativeRL_Previewソースコードのダウンロード

GenerativeRL_Preview

その他のソースコード

1.0.0

ダウンロード

生成的強化学習

英語| 简体中文（単純化された中国語）

Generativerlは、生成補強学習の略であり、拡散モデルやフローモデルなどの生成モデルを使用して、強化学習（RL）問題を解決するためのPythonライブラリです。このライブラリは、生成モデルの力を強化学習アルゴリズムの意思決定能力と組み合わせるためのフレームワークを提供することを目的としています。

Generativerl_previewはGenerativerlのプレビューバージョンであり、多くの実験的特徴を備えた急速な発展にあります。 Generativerlの安定したバージョンについては、Generativerlにアクセスしてください。

概要

特徴
フレームワーク構造
統合された生成モデル
統合アルゴリズム
インストール
クイックスタート
ドキュメント
チュートリアル
ベンチマーク実験

特徴

拡散モデルやフローモデルを含む多様な生成モデルのトレーニング、評価、展開のサポート
RLでの状態表現、アクション表現、ポリシー学習、動的モデル学習のための生成モデルの統合
Q誘導ポリシー最適化（QGPO）などの生成モデルに合わせて調整された一般的なRLアルゴリズムの実装
さまざまなRL環境とベンチマークのサポート
トレーニングと評価のための使いやすいAPI

フレームワーク構造

画像の説明1

統合された生成モデル

連続変数のモデル	スコアマッチング	フローマッチング
拡散モデル
線形VP SDE	✔	✔
一般化されたVP SDE	✔	✔
線形SDE	✔	✔
フローモデル
独立した条件付きフローマッチング		✔
最適な輸送条件付きフローマッチング		✔

離散変数のモデル	離散フローマッチング
Uカップリング/線形パス	✔

統合アルゴリズム

アルゴ/モデル	拡散モデル	フローモデル
idql	✔
QGPO	✔
srpo	✔
GMPO	✔	✔
GMPG	✔	✔

インストール

出典からインストールしてください：

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

または、Docker画像を使用できます。

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

クイックスタート

Generativerlを使用してLunlanderContinuous-V2環境でQ誘導ポリシー最適化（QGPO）の拡散モデルをトレーニングする方法の例を示します。

必要な依存関係をインストールします。

pip install ' gym[box2d]==0.23.1 '

ここからデータセットをダウンロードし、現在のディレクトリにdata.npzとして保存します。

Generativerlは、ロギングにWandBを使用します。使用するときにアカウントにログインするように依頼します。実行して無効にすることができます。

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

より詳細な例とドキュメントについては、Generativerlのドキュメントを参照してください。

ドキュメント

Generativerlプレビューバージョンの完全なドキュメントは、Generativerlドキュメント（進行中）にあります。

チュートリアル

Generativerlをよりよく理解できるように、いくつかのケースチュートリアルを提供します。詳細については、チュートリアルをご覧ください。

ベンチマーク実験

生成強化学習アルゴリズムのパフォーマンスを評価するためのベースライン実験を提供します。ベンチマークで詳細をご覧ください。

貢献

Generativerlへの貢献を歓迎します！寄付に興味がある場合は、寄稿ガイドを参照してください。

引用

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}

ライセンス

Generativerlは、Apacheライセンス2.0に基づいてライセンスされています。詳細については、ライセンスを参照してください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-09
サイズ 5.21MB
から Github

GenerativeRL_Preview

生成的強化学習

概要

特徴

フレームワーク構造

統合された生成モデル

統合アルゴリズム

インストール

クイックスタート

ドキュメント

チュートリアル

ベンチマーク実験

貢献

引用

ライセンス

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express