ดาวน์โหลด d3rlpy - d3rlpy ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

d3rlpy

หลาม

v2.7.0

ดาวน์โหลด

D3RLPY: ห้องสมุดการเรียนรู้การเสริมแรงแบบออฟไลน์แบบออฟไลน์

D3RLPY เป็นห้องสมุดการเรียนรู้การเสริมแรงแบบออฟไลน์สำหรับผู้ปฏิบัติงานและนักวิจัย

 import d3rlpy

dataset , env = d3rlpy . datasets . get_dataset ( "hopper-medium-v0" )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = "cuda:0" )

# train offline
sac . fit ( dataset , n_steps = 1000000 )

# train online
sac . fit_online ( env , n_steps = 1000000 )

# ready to control
actions = sac . predict ( x )

เอกสาร: https://d3rlpy.readthedocs.io
กระดาษ: https://arxiv.org/abs/2111.03788

สำคัญ

v2.xx แนะนำการเปลี่ยนแปลงที่แตกหัก หากคุณยังคงยึดติดกับ v1.xx โปรดติดตั้งเวอร์ชันก่อนหน้าอย่างชัดเจน (เช่น pip install d3rlpy==1.1.1 )

คุณสมบัติที่สำคัญ

⚡ห้องสมุด RL ที่ใช้งานได้จริงที่สุดเท่าที่เคยมีมา

ออฟไลน์ RL : D3RLPY รองรับอัลกอริทึม RL ออฟไลน์ที่ทันสมัย ออฟไลน์ RL มีพลังอย่างยิ่งเมื่อการโต้ตอบออนไลน์ไม่สามารถทำได้ในระหว่างการฝึกอบรม (เช่นหุ่นยนต์, การแพทย์)
ออนไลน์ RL : D3RLPY ยังรองรับอัลกอริทึมการฝึกอบรมออนไลน์ที่ทันสมัยแบบดั้งเดิมโดยไม่ต้องประนีประนอมซึ่งหมายความว่าคุณสามารถแก้ปัญหา RL ใด ๆ ได้เฉพาะกับ d3rlpy

- API ที่ใช้งานง่าย

ศูนย์ความรู้ของห้องสมุด DL : D3RLPY ให้อัลกอริทึมที่ทันสมัยมากมายผ่าน API ที่ใช้งานง่าย คุณสามารถเป็นวิศวกร RL ได้แม้จะไม่รู้วิธีใช้ห้องสมุดการเรียนรู้ลึก
เอกสารที่กว้างขวาง : D3RLPY ได้รับการบันทึกไว้อย่างเต็มที่และมาพร้อมกับบทเรียนและสคริปต์การทำซ้ำของเอกสารต้นฉบับ

นอกเหนือจากล้ำสมัย

ฟังก์ชั่น q distributional : D3RLPY เป็นไลบรารีแรกที่รองรับฟังก์ชั่น Q distributional ในอัลกอริทึมทั้งหมด ฟังก์ชั่น Q distributional เป็นที่รู้จักกันว่าเป็นวิธีที่ทรงพลังมากเพื่อให้บรรลุผลการดำเนินงานที่ทันสมัย
การฝึกอบรมแบบกระจายข้อมูลแบบขนาน : D3RLPY เป็นไลบรารีแรกที่รองรับการฝึกอบรม RL แบบออฟไลน์แบบกระจายแบบขนานข้อมูลแบบขนานซึ่งช่วยให้คุณสามารถปรับขนาด RL ออฟไลน์ด้วย GPU หรือโหนดหลายตัว ดูตัวอย่าง

การติดตั้ง

D3RLPY รองรับ Linux, MacOS และ Windows

การพึ่งพาอาศัยกัน

การติดตั้งแพ็คเกจ D3RLPY จะติดตั้งหรืออัพเกรดแพ็คเกจต่อไปนี้เพื่อตอบสนองความต้องการ:

Torch> = 2.5.0
tqdm> = 4.66.3
โรงยิม> = 0.26.0
Gymnasium> = 1.0.0
คลิก
colorama
Dataclasses-json
H5PY
structlog
การขยายส่วนขยาย
Scikit-learn

PYPI (แนะนำ)

 $ pip install d3rlpy

อนาคอนดา

 $ conda install conda-forge/noarch::d3rlpy

นักเทียบท่า

 $ docker run -it --gpus all --name d3rlpy takuseno/d3rlpy:latest bash

อัลกอริทึมที่รองรับ

อัลกอริทึม	การควบคุมแบบไม่ต่อเนื่อง	การควบคุมอย่างต่อเนื่อง
การโคลนนิ่งพฤติกรรม (การเรียนรู้ภายใต้การดูแล)
การติดตั้งระบบประสาท (NFQ)
Deep Q-Network (DQN)
dqn สองครั้ง
การไล่ระดับสีเชิงลึกเชิงลึก (DDPG)
การไล่ระดับสีเชิงกำหนดนโยบายที่กำหนดไว้อย่างลึกล้ำ (TD3) ล่าช้า
นักแสดงที่อ่อนนุ่ม (SAC)
แบทช์ข้อ จำกัด Q-Learning (BCQ)
Bootstrapping การลดการสะสมข้อผิดพลาด (Bear)
อนุรักษ์นิยม Q-Learning (CQL)
นักแสดงถ่วงน้ำหนักได้เปรียบ (AWAC)
นักวิจารณ์การถดถอย Reguralized (CRR)
นโยบายในพื้นที่ปฏิบัติการแฝง (PLAs)
TD3+BC
นโยบายการทำให้เป็นมาตรฐานด้วยข้อ จำกัด ชุดข้อมูล (PRDC)
q-learning โดยนัย (IQL)
การสอบเทียบ Q-Learning (Cal-ql)
rebrac
หม้อแปลงตัดสินใจ
นกกระยาง	-	-

ฟังก์ชั่น Q ที่รองรับ

ฟังก์ชั่น q มาตรฐาน
การถดถอยเชิงปริมาณ
เครือข่ายควอนไทล์โดยนัย

ผลการวัดผล

D3RLPY ได้รับการเปรียบเทียบเพื่อให้แน่ใจว่าคุณภาพการใช้งาน สคริปต์มาตรฐานมีไดเรกทอรีการทำซ้ำ ผลลัพธ์มาตรฐานมีให้บริการ D3RLPY-Benchmarks

ตัวอย่าง

มูจาโกะ

 import d3rlpy

# prepare dataset
dataset , env = d3rlpy . datasets . get_d4rl ( 'hopper-medium-v0' )

# prepare algorithm
cql = d3rlpy . algos . CQLConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# train
cql . fit (
    dataset ,
    n_steps = 100000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env )},
)

ดูชุดข้อมูลเพิ่มเติมที่ D4RL

อาตาริ 2600

 import d3rlpy

# prepare dataset (1% dataset)
dataset , env = d3rlpy . datasets . get_atari_transitions (
    'breakout' ,
    fraction = 0.01 ,
    num_stack = 4 ,
)

# prepare algorithm
cql = d3rlpy . algos . DiscreteCQLConfig (
    observation_scaler = d3rlpy . preprocessing . PixelObservationScaler (),
    reward_scaler = d3rlpy . preprocessing . ClipRewardScaler ( - 1.0 , 1.0 ),
    compile_graph = True ,
). create ( device = 'cuda:0' )

# start training
cql . fit (
    dataset ,
    n_steps = 1000000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env , epsilon = 0.001 )},
)

ดูชุดข้อมูล Atari เพิ่มเติมที่ D4RL-ATARI

การฝึกอบรมออนไลน์

 import d3rlpy
import gym

# prepare environment
env = gym . make ( 'Hopper-v3' )
eval_env = gym . make ( 'Hopper-v3' )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# prepare replay buffer
buffer = d3rlpy . dataset . create_fifo_replay_buffer ( limit = 1000000 , env = env )

# start training
sac . fit_online ( env , buffer , n_steps = 1000000 , eval_env = eval_env )

บทเรียน

ลองตัวอย่าง cartpole บน Google Colaboratory!

การสอนแบบออฟไลน์ RL:
การสอน RL ออนไลน์:

มีเอกสารการสอนเพิ่มเติมที่นี่

ผลงาน

การมีส่วนร่วมใด ๆ ต่อ D3RLPY จะได้รับการชื่นชมอย่างมาก! โปรดตรวจสอบคู่มือการบริจาค

ชุมชน

ช่อง	การเชื่อมโยง
ปัญหา	ปัญหา GitHub

สำคัญ

โปรดอย่าส่งอีเมลถึงผู้มีส่วนร่วมใด ๆ รวมถึงเจ้าของโครงการนี้เพื่อขอการสนับสนุนด้านเทคนิค อีเมลดังกล่าวจะถูกละเว้นโดยไม่ต้องตอบกลับข้อความของคุณ ใช้ปัญหา GitHub เพื่อรายงานปัญหาของคุณ

โครงการที่ใช้ d3rlpy

โครงการ	คำอธิบาย
Minerva	เครื่องมือ GUI นอกกรอบสำหรับ RL ออฟไลน์
ขอบเขต RL	การประเมินผลและการคัดเลือกตามนโยบาย

แผนงาน

แผนงานสู่การเปิดตัวในอนาคตมีอยู่ใน Roadmap.md

การอ้างอิง

กระดาษมีให้ที่นี่

 @article{d3rlpy,
  author  = {Takuma Seno and Michita Imai},
  title   = {d3rlpy: An Offline Deep Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2022},
  volume  = {23},
  number  = {315},
  pages   = {1--20},
  url     = {http://jmlr.org/papers/v23/22-0017.html}
}