d3rlpy Download - d3rlpy Source Code Download

d3rlpy

بايثون

v2.7.0

تنزيل

d3rlpy: مكتبة تعلم التعزيز العميقة في وضع عدم الاتصال

D3rlpy هي مكتبة تعلم التعزيز العميقة في وضع عدم الاتصال للممارسين والباحثين.

 import d3rlpy

dataset , env = d3rlpy . datasets . get_dataset ( "hopper-medium-v0" )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = "cuda:0" )

# train offline
sac . fit ( dataset , n_steps = 1000000 )

# train online
sac . fit_online ( env , n_steps = 1000000 )

# ready to control
actions = sac . predict ( x )

الوثائق: https://d3rlpy.readthedocs.io
ورقة: https://arxiv.org/abs/2111.03788

مهم

v2.xx يقدم التغييرات كسر. إذا كنت لا تزال تلتزم بـ v1.xx ، فيرجى تثبيت الإصدارات السابقة بشكل صريح (على سبيل المثال pip install d3rlpy==1.1.1 ).

الميزات الرئيسية

⚡ معظم مكتبة RL عملية على الإطلاق

RL في وضع عدم الاتصال : يدعم D3RLPY خوارزميات RL في وضع غير متصل بالإنترنت. يعد RL Offline RL قويًا للغاية عندما يكون التفاعل عبر الإنترنت غير ممكن أثناء التدريب (مثل الروبوتات ، الطبية).
RL عبر الإنترنت : يدعم D3RLPY أيضًا خوارزميات التدريب التقليدية على الإنترنت دون أي حل وسط ، مما يعني أنه يمكنك حل أي أنواع من مشاكل RL فقط باستخدام d3rlpy .

؟ واجهة برمجة تطبيقات سهلة الاستخدام

يوفر المعرفة الصفرية مكتبة DL : D3Rlpy العديد من الخوارزميات الحديثة من خلال واجهات برمجة التطبيقات البديهية. يمكنك أن تصبح مهندس RL حتى دون معرفة كيفية استخدام مكتبات التعلم العميق.
وثائق مكثفة : تم توثيق D3Rlpy بالكامل ويرافقه برامج تعليمية ونصوص استنساخ للأوراق الأصلية.

ما وراء أحدث

وظيفة Q التوزيعية : D3Rlpy هي المكتبة الأولى التي تدعم وظائف Q التوزيعية في جميع الخوارزميات. تُعرف وظيفة Q التوزيعية بأنها الطريقة القوية للغاية لتحقيق حالة الأداء.
التدريب الموزع بين البيانات : D3RLPY هي أول مكتبة تدعم التدريب الموثل المتوازي في وضع غير متصل بالبيانات ، مما يتيح لك زيادة مستوى RL دون اتصال مع وحدات معالجة الرسومات أو العقد المتعددة. انظر المثال.

تثبيت

يدعم D3rlpy Linux و MacOS و Windows.

التبعيات

سيقوم تثبيت حزمة D3RLPY بتثبيت أو ترقية الحزم التالية لتلبية المتطلبات:

الشعلة> = 2.5.0
TQDM> = 4.66.3
الصالة الرياضية> = 0.26.0
صالة الألعاب الرياضية> = 1.0.0
انقر
Colorama
dataclasses-json
H5py
الهيكلي
تكتب-مواد التبعية
Scikit-Learn

PYPI (موصى به)

 $ pip install d3rlpy

أناكوندا

 $ conda install conda-forge/noarch::d3rlpy

عامل ميناء

 $ docker run -it --gpus all --name d3rlpy takuseno/d3rlpy:latest bash

خوارزميات مدعومة

خوارزمية	السيطرة المنفصلة	السيطرة المستمرة
استنساخ السلوك (التعلم الخاضع للإشراف)	✅	✅
التكرار المجهز العصبي (NFQ)	✅	⛔
عمق Q-Network (DQN)	✅	⛔
مزدوج DQN	✅	⛔
تدرجات السياسة الحتمية العميقة (DDPG)	⛔	✅
تأخر توأم تدرجات السياسة الحتمية العميقة (TD3)	⛔	✅
الممثل الناعم النحوي (SAC)	✅	✅
دفعة مقيدة Q-Learning (BCQ)	✅	✅
تخفيض تراكم الأخطاء في Bootstrapping (Bear)	⛔	✅
التعلم Q المحافظ (CQL)	✅	✅
ميزة الممثل المرجح الناقد (AWAC)	⛔	✅
الانحدار اللولبي الناقد (CRR)	⛔	✅
سياسة في مجال العمل الكامن (PLAS)	⛔	✅
TD3+قبل الميلاد	⛔	✅
تنظيم السياسة مع قيود مجموعة البيانات (PRDC)	⛔	✅
التعلم Q الضمني (IQL)	⛔	✅
المعايرة Q-Learning (Cal-QL)	⛔	✅
rebrac	⛔	✅
محول القرار	✅	✅
جاتو	؟	؟

وظائف Q المدعومة

وظيفة Q القياسية
الانحدار الكمي
شبكة كمية ضمنية

النتائج القياسية

يتم قياس D3RLPY لضمان جودة التنفيذ. تتوفر البرامج النصية المرجعية دليل النسخ. تتوفر النتائج القياسية مستودع علامات D3RLPY.

أمثلة

mujoco

 import d3rlpy

# prepare dataset
dataset , env = d3rlpy . datasets . get_d4rl ( 'hopper-medium-v0' )

# prepare algorithm
cql = d3rlpy . algos . CQLConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# train
cql . fit (
    dataset ,
    n_steps = 100000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env )},
)

شاهد المزيد من مجموعات البيانات في D4RL.

أتاري 2600

 import d3rlpy

# prepare dataset (1% dataset)
dataset , env = d3rlpy . datasets . get_atari_transitions (
    'breakout' ,
    fraction = 0.01 ,
    num_stack = 4 ,
)

# prepare algorithm
cql = d3rlpy . algos . DiscreteCQLConfig (
    observation_scaler = d3rlpy . preprocessing . PixelObservationScaler (),
    reward_scaler = d3rlpy . preprocessing . ClipRewardScaler ( - 1.0 , 1.0 ),
    compile_graph = True ,
). create ( device = 'cuda:0' )

# start training
cql . fit (
    dataset ,
    n_steps = 1000000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env , epsilon = 0.001 )},
)

شاهد المزيد من مجموعات بيانات Atari في D4RL-Atari.

التدريب عبر الإنترنت

 import d3rlpy
import gym

# prepare environment
env = gym . make ( 'Hopper-v3' )
eval_env = gym . make ( 'Hopper-v3' )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# prepare replay buffer
buffer = d3rlpy . dataset . create_fifo_replay_buffer ( limit = 1000000 , env = env )

# start training
sac . fit_online ( env , buffer , n_steps = 1000000 , eval_env = eval_env )

دروس

جرب أمثلة Cartpole على google colaboratory!

البرنامج التعليمي RL غير متصل:
البرنامج التعليمي RL عبر الإنترنت:

المزيد من الوثائق التعليمية متوفرة هنا.

مساهمات

أي نوع من المساهمة في d3rlpy سيكون موضع تقدير كبير! يرجى التحقق من دليل المساهمة.

مجتمع

قناة	وصلة
مشاكل	قضايا جيثب

مهم

يرجى عدم إرسال بريد إلكتروني إلى أي مساهمين بما في ذلك مالك هذا المشروع لطلب الدعم الفني. سيتم تجاهل رسائل البريد الإلكتروني هذه دون الرد على رسالتك. استخدم مشكلات github للإبلاغ عن مشاكلك.

المشاريع باستخدام d3rlpy

مشروع	وصف
مينيرفا	أداة واجهة المستخدم الرسومية خارج الصندوق لصالح RL في وضع عدم الاتصال
النطاق RL	مكتبة التقييم والاختيار خارج السياسة

خريطة الطريق

تتوفر خارطة الطريق إلى الإصدار المستقبلي في Roadmap.md.

اقتباس

الورقة متوفرة هنا.

 @article{d3rlpy,
  author  = {Takuma Seno and Michita Imai},
  title   = {d3rlpy: An Offline Deep Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2022},
  volume  = {23},
  number  = {315},
  pages   = {1--20},
  url     = {http://jmlr.org/papers/v23/22-0017.html}
}

شكر وتقدير

بدأ هذا العمل كجزء من مشروع الدكتوراه في Takuma Seno في جامعة كيو في عام 2020.

يتم دعم هذا العمل من قبل وكالة الترويج للتكنولوجيا المعلوماتية ، اليابان (IPA) ، ومشروع موارد تكنولوجيا المعلومات الاستكشافية (برنامج MITOU) في السنة المالية 2020.

يوسع

معلومات إضافية

الإصدار v2.7.0
النوع بايثون
وقت التحديث 2025-07-14
الحجم 3.47MB
من Github

تطبيقات ذات صلة

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Redash أداة مخطط البيانات مفتوحة المصدر v24.10.0

2024-11-27
منصة تصور البيانات SmartChart v6.9

2024-11-27
أداة اختبار حمل الجراد v2.32.0

2024-11-27

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
datamule python

بايثون
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل