GenerativeRL_Preview تنزيل - GenerativeRL_Preview تنزيل رمز المصدر

GenerativeRL_Preview

شفرة المصدر الأخرى

1.0.0

تنزيل

تعلم التعزيز التوليدي

الإنجليزية | 简体中文 (صيني مبسط)

Generativerl ، قصيرة لتعلم التعزيز التوليدي ، هي مكتبة Python لحل مشاكل التعلم التعزيز (RL) باستخدام نماذج توليدية ، مثل نماذج الانتشار ونماذج التدفق. تهدف هذه المكتبة إلى توفير إطار لدمج قوة النماذج التوليدية وقدرات صنع القرار في خوارزميات التعلم التعزيز.

Generativerl_preview هو نسخة معاينة من cenerativerl ، والتي لا تزال تحت التطوير السريع مع العديد من الميزات التجريبية. للحصول على نسخة مستقرة من Generativerl ، يرجى زيارة Generativerl.

مخطط

سمات
هيكل الإطار
نماذج توليدية متكاملة
خوارزميات متكاملة
تثبيت
بداية سريعة
الوثائق
دروس
التجارب القياسية

سمات

دعم التدريب والتقييم ونشر نماذج توليدية متنوعة ، بما في ذلك نماذج الانتشار ونماذج التدفق
دمج النماذج التوليدية لتمثيل الدولة ، تمثيل العمل ، تعلم السياسة وتعلم النموذج الديناميكي في RL
تنفيذ خوارزميات RL الشهيرة المصممة للنماذج التوليدية ، مثل تحسين السياسة الموجهة Q (QGPO)
دعم مختلف بيئات RL والمعايير
واجهة برمجة تطبيقات سهلة الاستخدام للتدريب والتقييم

هيكل الإطار

وصف الصورة 1

نماذج توليدية متكاملة

نماذج للمتغيرات المستمرة	نقاط مطابقة	مطابقة التدفق
نموذج الانتشار
خطي نائب الرئيس SDE	✔	✔
VP SDE المعمم	✔	✔
خطي SDE	✔	✔
نموذج التدفق
مطابقة التدفق الشرطي المستقل		✔
مطابقة التدفق الشرطي النقل الأمثل		✔

نماذج للمتغيرات المنفصلة	مطابقة التدفق المنفصل
المسار U/الخطي	✔

خوارزميات متكاملة

algo./models	نموذج الانتشار	نموذج التدفق
IDQL	✔
QGPO	✔
SRPO	✔
GMPO	✔	✔
GMPG	✔	✔

تثبيت

الرجاء التثبيت من المصدر:

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

أو يمكنك استخدام صورة Docker:

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

بداية سريعة

فيما يلي مثال على كيفية تدريب نموذج الانتشار لتحسين السياسة الموجهة Q (QGPO) في بيئة LunarlanderContinuous-V2 باستخدام Generativerl.

تثبيت التبعيات المطلوبة:

pip install ' gym[box2d]==0.23.1 '

قم بتنزيل مجموعة البيانات من هنا وحفظها كـ data.npz في الدليل الحالي.

يستخدم Generativerl WANDB لتسجيله. سيطلب منك تسجيل الدخول إلى حسابك عند استخدامه. يمكنك تعطيله عن طريق الجري:

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

لمزيد من الأمثلة والوثائق التفصيلية ، يرجى الرجوع إلى وثائق Generativerl.

الوثائق

يمكن الاطلاع على الوثائق الكاملة لإصدار معاينة Generativerl في توثيق Generativerl (قيد التقدم).

دروس

نحن نقدم العديد من البرامج التعليمية للحالات لمساعدتك على فهم Generativerl بشكل أفضل. رؤية المزيد في البرامج التعليمية.

التجارب القياسية

نحن نقدم بعض التجارب الأساسية لتقييم أداء خوارزميات تعلم التعزيز التوليدي. رؤية المزيد في القياس.

المساهمة

نرحب بالمساهمات في generativerl! إذا كنت مهتمًا بالمساهمة ، فيرجى الرجوع إلى الدليل المساهم.

اقتباس

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}

رخصة

تم ترخيص Generativerl بموجب ترخيص Apache 2.0. انظر الترخيص لمزيد من التفاصيل.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-09
الحجم 5.21MB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل