ดาวน์โหลด GenerativeRL_Preview - GenerativeRL_Preview ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

GenerativeRL_Preview

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การเรียนรู้การเสริมแรงแบบกำเนิด

ภาษาอังกฤษ | 简体中文 (ภาษาจีนง่าย ๆ )

Generativerl สั้นสำหรับการเรียนรู้การเสริมแรงแบบกำเนิดเป็นห้องสมุด Python สำหรับการแก้ปัญหาการเรียนรู้การเสริมแรง (RL) โดยใช้แบบจำลองการกำเนิดเช่นแบบจำลองการแพร่กระจายและแบบจำลองการไหล ห้องสมุดนี้มีจุดมุ่งหมายเพื่อให้กรอบการทำงานร่วมกันรวมพลังของแบบจำลองการกำเนิดเข้ากับความสามารถในการตัดสินใจของอัลกอริทึมการเรียนรู้การเสริมแรง

Generativerl_Preview เป็นรุ่นตัวอย่างของ Generativerl ซึ่งยังอยู่ภายใต้การพัฒนาอย่างรวดเร็วด้วยคุณสมบัติการทดลองมากมาย สำหรับรุ่นที่เสถียรของ Generativerl กรุณาเยี่ยมชม Generativerl

ร่าง

คุณสมบัติ
โครงสร้างกรอบ
แบบจำลองการกำเนิดแบบรวม
อัลกอริทึมแบบบูรณาการ
การติดตั้ง
เริ่มต้นอย่างรวดเร็ว
เอกสาร
บทเรียน
การทดลองมาตรฐาน

คุณสมบัติ

สนับสนุนการฝึกอบรมการประเมินผลและการปรับใช้แบบจำลองการกำเนิดที่หลากหลายรวมถึงแบบจำลองการแพร่กระจายและแบบจำลองการไหล
การบูรณาการแบบจำลองการกำเนิดสำหรับการเป็นตัวแทนของรัฐการเป็นตัวแทนการกระทำการเรียนรู้นโยบายและการเรียนรู้แบบจำลองแบบไดนามิกใน RL
การใช้อัลกอริทึม RL ยอดนิยมที่เหมาะสำหรับแบบจำลองการกำเนิดเช่นการเพิ่มประสิทธิภาพนโยบาย Q-Guided (QGPO)
รองรับสภาพแวดล้อม RL และมาตรฐานต่างๆ
API ที่ใช้งานง่ายสำหรับการฝึกอบรมและการประเมินผล

โครงสร้างกรอบ

คำอธิบายภาพ 1

แบบจำลองการกำเนิดแบบรวม

แบบจำลองสำหรับตัวแปรต่อเนื่อง	การจับคู่คะแนน	การจับคู่การไหล
รูปแบบการแพร่กระจาย
VP SDE เชิงเส้น
VP SDE ทั่วไป
SDE เชิงเส้น
โมเดลการไหล
การจับคู่การไหลแบบมีเงื่อนไขอิสระ
การจับคู่การไหลแบบเงื่อนไขการขนส่งที่ดีที่สุด

แบบจำลองสำหรับตัวแปรที่ไม่ต่อเนื่อง	การจับคู่การไหลแบบไม่ต่อเนื่อง
เส้นทาง U-coupling/linear

อัลกอริทึมแบบบูรณาการ

Algo./Models	รูปแบบการแพร่กระจาย	โมเดลการไหล
idql
QGPO
SRPO
GMPO
GMPG

การติดตั้ง

กรุณาติดตั้งจากแหล่งที่มา:

git clone https://github.com/zjowowen/GenerativeRL_Preview.git
cd GenerativeRL_Preview
pip install -e .

หรือคุณสามารถใช้อิมเมจนักเทียบท่า:

docker pull zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime
docker run -it --rm --gpus all zjowowen/grl:torch2.3.0-cuda12.1-cudnn8-runtime /bin/bash

เริ่มต้นอย่างรวดเร็ว

นี่คือตัวอย่างของวิธีการฝึกอบรมแบบจำลองการแพร่กระจายสำหรับการเพิ่มประสิทธิภาพนโยบาย Q-Guided (QGPO) ในสภาพแวดล้อม Lunarlandercontinuous-V2 โดยใช้ Generativerl

ติดตั้งการพึ่งพาที่ต้องการ:

pip install ' gym[box2d]==0.23.1 '

ดาวน์โหลดชุดข้อมูลจากที่นี่และบันทึกเป็น data.npz ในไดเรกทอรีปัจจุบัน

Generativerl ใช้ Wandb สำหรับการบันทึก มันจะขอให้คุณเข้าสู่บัญชีของคุณเมื่อคุณใช้ คุณสามารถปิดการใช้งานได้โดยการวิ่ง:

wandb offline

 import gym

from grl . algorithms . qgpo import QGPOAlgorithm
from grl . datasets import QGPOCustomizedTensorDictDataset
from grl . utils . log import log
from grl_pipelines . diffusion_model . configurations . lunarlander_continuous_qgpo import config

def qgpo_pipeline ( config ):
    qgpo = QGPOAlgorithm ( config , dataset = QGPOCustomizedTensorDictDataset ( numpy_data_path = "./data.npz" , action_augment_num = config . train . parameter . action_augment_num ))
    qgpo . train ()

    agent = qgpo . deploy ()
    env = gym . make ( config . deploy . env . env_id )
    observation = env . reset ()
    for _ in range ( config . deploy . num_deploy_steps ):
        env . render ()
        observation , reward , done , _ = env . step ( agent . act ( observation ))

if __name__ == '__main__' :
    log . info ( "config: n {}" . format ( config ))
    qgpo_pipeline ( config )

สำหรับตัวอย่างและเอกสารโดยละเอียดเพิ่มเติมโปรดดูเอกสารประกอบของ Generativerl

เอกสาร

เอกสารฉบับเต็มสำหรับเวอร์ชันดูตัวอย่างของ Generativerl สามารถดูได้ที่เอกสาร Generativerl (อยู่ระหว่างดำเนินการ)

บทเรียน

เรามีบทเรียนหลายกรณีเพื่อช่วยให้คุณเข้าใจ Generativerl ได้ดีขึ้น ดูเพิ่มเติมที่บทเรียน

การทดลองมาตรฐาน

เราเสนอการทดลองพื้นฐานบางอย่างเพื่อประเมินประสิทธิภาพของอัลกอริทึมการเรียนรู้การเสริมแรงแบบกำเนิด ดูเพิ่มเติมที่มาตรฐาน

การบริจาค

เรายินดีต้อนรับการมีส่วนร่วมของ Generativerl! หากคุณสนใจที่จะมีส่วนร่วมโปรดดูคู่มือการสนับสนุน

การอ้างอิง

@misc{generative_rl,
    title={GenerativeRL: A Python Library for Solving Reinforcement Learning Problems Using Generative Models},
    author={Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu},
    publisher={GitHub},
    howpublished={ url {https://github.com/opendilab/GenerativeRL}},
    year={2024},
}

ใบอนุญาต

Generativerl ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache 2.0 ดูใบอนุญาตสำหรับรายละเอียดเพิ่มเติม

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-09
ขนาด 5.21MB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด