MARLlib Download - MARLlib Source Code Download

MARLlib

بايثون

v1.0.3

تنزيل

الأخبار
مارس 2023 ⚓ متحمسون للإعلان عن إصدار تحديث كبير للتو. للحصول على معلومات إصدار مفصلة ، يرجى الرجوع إلى معلومات الإصدار.
مايو 2023 أخبار مثيرة! يدعم Marllib الآن خمس مهام أخرى: Mate و Gobigger و Overcooked-AA و MAPDN و Aircombat. جربهم!
يونيو 2023 Openai: يتم دمج بيئات إخفاء و SISL في Marllib.
أغسطس 2023 ؟ تم قبول مارليب للنشر في JMLR.
سبتمبر 2023 أحدث pettingzoo مع صالة الألعاب الرياضية قابلة للتوافق داخل مارليب.
نوفمبر 2023 ، نحن بصدد إنشاء كتاب MARL عمليًا ونهدف إلى إصدار المسودة بحلول نهاية عام 2023.

مكتبة التعلم التعزيز متعددة الوكلاء (Marllib) هي مكتبة MARL التي تستخدم Ray وأحد مجموعات الأدوات RLLIB . إنه يوفر منصة شاملة لتطوير وتدريب واختبار خوارزميات MARL عبر مختلف المهام والبيئات.

إليك مثال على كيفية استخدام Marllib:

 from marllib import marl

# prepare env
env = marl . make_env ( environment_name = "mpe" , map_name = "simple_spread" , force_coop = True )

# initialize algorithm with appointed hyper-parameters
mappo = marl . algos . mappo ( hyperparam_source = 'mpe' )

# build agent model based on env + algorithms + user preference
model = marl . build_model ( env , mappo , { "core_arch" : "mlp" , "encode_layer" : "128-256" })

# start training
mappo . fit ( env , model , stop = { 'timesteps_total' : 1000000 }, share_policy = 'group' )

لماذا مارليب؟

نحن هنا نقدم جدولًا لمقارنة Marllib والعمل الحالي.

مكتبة	المدعومة ENV	خوارزمية	مشاركة المعلمة	نموذج
pymarl	1 التعاونية	5	يشارك	جرو
pymarl2	2 التعاونية	11	يشارك	MLP + GRU
مؤشر مابو	4 التعاونية	1	مشاركة + منفصلة	MLP + GRU
ماليب	4 اللعب الذاتي	10	مشاركة + مجموعة + منفصلة	MLP + LSTM
epymarl	4 التعاونية	9	مشاركة + منفصلة	جرو
هارل	8 التعاونية	9	مشاركة + منفصلة	MLP + CNN + GRU
مارليب	17 لا يوجد قيود على وضع المهمة	18	مشاركة + مجموعة + منفصلة + قابلة للتخصيص	MLP + CNN + GRU + LSTM

مكتبة	نجوم جيثب	الوثائق	القضايا مفتوحة	نشاط	التحديث الأخير
pymarl
pymarl2
مؤشر مابو
ماليب
epymarl
هارل *
مارليب

* هارل هي أحدث مكتبة مارل التي تم إصدارها مؤخرًا: Fire:. إذا كانت خوارزميات Marl المتطورة ذات الأداء المتطرف هي هدفك ، فإن Harl يستحق بالتأكيد نظرة!

الميزات الرئيسية

؟ يقدم Marllib العديد من الميزات الرئيسية التي تجعلها تبرز:

يقوم Marllib بتوحيد خطوط أنابيب خوارزمية متنوعة مع تدفق البيانات الموزعة على مستوى الوكيل ، مما يسمح للباحثين بتطوير خوارزميات MARL واختبارها وتقييمها عبر مهام وبيئات مختلفة.
يدعم Marllib جميع أوضاع المهام ، بما في ذلك التعاونية والتعاونية والتنافسية والمختلطة. هذا يجعل من السهل على الباحثين تدريب وتقييم خوارزميات مارل عبر مجموعة واسعة من المهام.
يوفر Marllib واجهة جديدة تتبع بنية الصالة الرياضية ، مما يسهل على الباحثين العمل مع بيئات متعددة الوكلاء.
يوفر Marllib استراتيجيات مشاركة المعلمات المرنة والقابلة للتخصيص ، مما يسمح للباحثين بتحسين خوارزمياتهم للمهام والبيئات المختلفة.

باستخدام Marllib ، يمكنك الاستفادة من الفوائد المختلفة ، مثل:

Zero Relivery of Marl : توفر Marllib 18 خوارزميات تم تصميمها مسبقًا مع واجهة برمجة تطبيقات بديهية ، مما يسمح للباحثين بالبدء في تجربة MARL دون معرفة مسبقة بالمجال.
دعم لجميع أوضاع المهام : يدعم Marllib جميع البيئات المتعددة تقريبًا ، مما يسهل على الباحثين تجربة أوضاع المهام المختلفة.
بنية النموذج القابلة للتخصيص : يمكن للباحثين اختيار بنية النموذج المفضلة لديهم من حديقة الحيوان النموذجية ، أو بناء خاص بهم.
مشاركة السياسة القابلة للتخصيص : يوفر Marllib خيارات التجميع لمشاركة السياسات ، أو يمكن للباحثين إنشاء خاص بهم.
الوصول إلى أكثر من ألف تجربة تم إصدارها : يمكن للباحثين الوصول إلى أكثر من ألف تجربة تم إصدارها لمعرفة كيف استخدم الباحثون الآخرون Marllib.

تثبيت

ملاحظة : يرجى ملاحظة أنه في هذا الوقت ، يكون Marllib متوافقًا فقط مع أنظمة تشغيل Linux.

خطوة بخطوة (موصى بها)

تثبيت التبعيات
تثبيت البيئات
تثبيت التصحيحات

1. تثبيت التبعيات (أساسية)

أولاً ، قم بتثبيت تبعيات Marllib لضمان الاستخدام الأساسي. بعد هذا الدليل ، أخيرًا قم بتثبيت تصحيحات لـ RLLIB.

$ conda create -n marllib python=3.8 # or 3.9
$ conda activate marllib
$ git clone https://github.com/Replicable-MARL/MARLlib.git && cd MARLlib
$ pip install -r requirements.txt

2. تثبيت البيئات (اختياري)

يرجى اتباع هذا الدليل.

ملاحظة : نوصي إصدار الصالة الرياضية بحوالي 0.20.0.

pip install " gym==0.20.0 "

3. تثبيت تصحيحات (أساسية)

إصلاح الأخطاء من RLLIB باستخدام تصحيحات عن طريق تشغيل الأمر التالي:

$ cd /Path/To/MARLlib/marllib/patch
$ python add_patch.py -y

pypi

$ pip install --upgrade pip
$ pip install marllib

الاستخدام القائم على Docker

نحن نقدم Dockerfile لبناء صورة Marllib Docker في MARLlib/docker/Dockerfile وإعداد DevContainer في مجلد MARLlib/.devcontainer . إذا كنت تستخدم DevContainer ، فإن هناك شيء واحد يجب ملاحظته هو أنك قد تحتاج إلى تخصيص وسيطات معينة في runArgs of devcontainer.json وفقًا لأجهزةك ، على سبيل المثال --shm-size .

ابدء

إعداد التكوين

هناك أربعة أجزاء من التكوينات التي تتولى مسؤولية عملية التدريب بأكملها.

السيناريو: حدد إعدادات البيئة/المهام
الخوارزمية: اختر مقاييس الخوارزمية المفرطة
النموذج: تخصيص بنية النموذج
Ray/Rllib: تغيير إعدادات التدريب الأساسية

قبل التدريب ، تأكد من تعيين جميع المعلمات بشكل صحيح ، خاصة تلك التي لا تريد تغييرها.

ملاحظة : يمكنك أيضًا تعديل جميع المعلمات المسبقة عبر Marllib API.*

تسجيل البيئة

تأكد من تثبيت جميع التبعيات للبيئة التي تعمل بها. خلاف ذلك ، يرجى الرجوع إلى وثائق Marllib.

وضع المهمة	مثال API
التعاونية	`marl.make_env(environment_name="mpe", map_name="simple_spread", force_coop=True)`
التعاون	`marl.make_env(environment_name="mpe", map_name="simple_spread")`
تنافسي	`marl.make_env(environment_name="mpe", map_name="simple_adversary")`
مختلط	`marl.make_env(environment_name="mpe", map_name="simple_crypto")`

يتم دعم معظم البيئات الشائعة في MARL Research بواسطة Marllib:

اسم البيئة	وضع التعلم	قابلية الملاحظة	مساحة العمل	الملاحظات
LBF	تعاونية + تعاونية	كلاهما	منفصلة	1D
rware	التعاونية	جزئي	منفصلة	1D
MPE	تعاونية + تعاونية + مختلطة	كلاهما	كلاهما	1D
سيسل	تعاونية + تعاونية	ممتلىء	كلاهما	1D
سماك	التعاونية	جزئي	منفصلة	1D
مفصل	التعاون	جزئي	مستمر	1D
أرجواني	تعاونية + مختلطة	جزئي	منفصلة	2D
Pommerman	تعاون + تنافسي + مختلط	كلاهما	منفصلة	2D
ماموجوكو	التعاونية	ممتلىء	مستمر	1D
GRF	تعاونية + مختلطة	ممتلىء	منفصلة	2D
حنابي	التعاونية	جزئي	منفصلة	1D
رَفِيق	تعاونية + مختلطة	جزئي	كلاهما	1D
gobigger	تعاونية + مختلطة	كلاهما	مستمر	1D
overcooked-ai	التعاونية	ممتلىء	منفصلة	1D
PDN	التعاونية	جزئي	مستمر	1D
aircombat	تعاونية + مختلطة	جزئي	multidiscrete	1D
الغميضة	تنافسية + مختلطة	جزئي	multidiscrete	1D

تحتوي كل بيئة على ملف readme ، يقف كتعليم لهذه المهمة ، بما في ذلك إعدادات ENV والتثبيت والملاحظات المهمة.

تهيئة الخوارزمية

تشغيل الهدف	مثال API
قطار و finetune	`marl.algos.mappo(hyperparam_source=$ENV)`
تطوير وتصحيح	`marl.algos.mappo(hyperparam_source="test")`
الحزب الثالث ENV	`marl.algos.mappo(hyperparam_source="common")`

فيما يلي مخطط يصف خصائص كل خوارزمية:

خوارزمية	دعم مهمة المهمة	عمل منفصل	عمل مستمر	نوع السياسة
IQL *	الأربعة	✔		خارج السياسة
ص	الأربعة	✔	✔	على السياسة
A2C	الأربعة	✔	✔	على السياسة
DDPG	الأربعة		✔	خارج السياسة
trpo	الأربعة	✔	✔	على السياسة
PPO	الأربعة	✔	✔	على السياسة
غيبوبة	الأربعة	✔		على السياسة
MADDPG	الأربعة		✔	خارج السياسة
MAA2C *	الأربعة	✔	✔	على السياسة
matrpo *	الأربعة	✔	✔	على السياسة
مابو	الأربعة	✔	✔	على السياسة
هاتربو	التعاونية	✔	✔	على السياسة
هابو	التعاونية	✔	✔	على السياسة
vdn	التعاونية	✔		خارج السياسة
Qmix	التعاونية	✔		خارج السياسة
Facmac	التعاونية		✔	خارج السياسة
VDAC	التعاونية	✔	✔	على السياسة
VDPPO *	التعاونية	✔	✔	على السياسة

* الأربعة : مختلط تعاوني تنافسي مختلط

IQL هي النسخة متعددة الوكلاء من Q Learning. MAA2C و MATRPO هي النسخة المركزية من A2C و TRPO. VDPPO هو نسخة تحلل القيمة من PPO.

بناء نموذج الوكيل

يتكون نموذج الوكيل من جزأين ، encoder والقوس core arch . سيتم بناء encoder بواسطة Marllib وفقًا لمساحة المراقبة. اختر mlp أو gru أو lstm كما ترغب في إنشاء النموذج الكامل.

نموذج القوس	مثال API
MLP	`marl.build_model(env, algo, {"core_arch": "mlp")`
جرو	`marl.build_model(env, algo, {"core_arch": "gru"})`
LSTM	`marl.build_model(env, algo, {"core_arch": "lstm"})`
تشفير القوس	`marl.build_model(env, algo, {"core_arch": "gru", "encode_layer": "128-256"})`

انطلق التدريب

جلسة	مثال API
يدرب	`algo.fit(env, model)`
تصحيح	`algo.fit(env, model, local_mode=True)`
توقف	`algo.fit(env, model, stop={'episode_reward_mean': 2000, 'timesteps_total': 10000000})`
تبادل السياسة	`algo.fit(env, model, share_policy='all') # or 'group' / 'individual'`
حفظ النموذج	`algo.fit(env, model, checkpoint_freq=100, checkpoint_end=True)`
GPU تسارع	`algo.fit(env, model, local_mode=False, num_gpus=1)`
وحدة المعالجة المركزية تسريع	`algo.fit(env, model, local_mode=False, num_workers=5)`

API التدريب وتقديم

 from marllib import marl

# prepare env
env = marl . make_env ( environment_name = "smac" , map_name = "5m_vs_6m" )
# initialize algorithm with appointed hyper-parameters
mappo = marl . algos . mappo ( hyperparam_source = "smac" )
# build agent model based on env + algorithms + user preference
model = marl . build_model ( env , mappo , { "core_arch" : "gru" , "encode_layer" : "128-256" })
# start training
mappo . fit (
  env , model , 
  stop = { "timesteps_total" : 1000000 }, 
  checkpoint_freq = 100 , 
  share_policy = "group"
)
# rendering
mappo . render (
  env , model , 
  local_mode = True , 
  restore_path = { 'params_path' : "checkpoint/params.json" ,
                'model_path' : "checkpoint/checkpoint-10" }
)

نتائج

ضمن دليل العمل الحالي ، يمكنك العثور على جميع بيانات التدريب (ملفات التسجيل وملفات TensorFlow) بالإضافة إلى النماذج المحفوظة. لتصور منحنى التعلم ، يمكنك استخدام Tensorboard. اتبع الخطوات أدناه:

تثبيت Tensorboard عن طريق تشغيل الأمر التالي:

pip install tensorboard

استخدم الأمر التالي لإطلاق Tensorboard وتصور النتائج:

tensorboard --logdir .

بدلاً من ذلك ، يمكنك الرجوع إلى هذا البرنامج التعليمي للحصول على المزيد من التعليمات التفصيلية.

للحصول على قائمة بجميع النتائج الحالية ، يمكنك زيارة هذا الرابط. يرجى ملاحظة أنه تم الحصول على هذه النتائج من نسخة أقدم من Marllib ، والتي قد تؤدي إلى تناقضات عند مقارنتها بالنتائج الحالية.

أمثلة سريعة

يوفر Marllib بعض الأمثلة العملية لتشير إليها.

استخدام API مفصل: أظهر كيفية استخدام Marllib API بالتفصيل ، مثل تشغيل CMD + API.
تقاسم السياسة: تحديد استراتيجية مشاركة السياسات الخاصة بك كما تريد استنادًا إلى المهام الحالية.
نموذج التحميل: تحميل النموذج الذي تم تدريبه مسبقًا والحفاظ على التدريب.
نموذج التحميل وتقديمه: عرض البيئة على أساس النموذج الذي تم تدريبه مسبقًا.
دمج بيئة جديدة: أضف بيئتك الجديدة بعد واجهة تفاعل Marllib's Env-Agent.
دمج خوارزمية جديدة: أضف الخوارزمية الجديدة بعد خط أنابيب التعلم Marllib.
التوازي المتوازي: fintune أداء السياسة/النموذج مع ray.tune .

دروس

جرب أمثلة MPE + MAPPO على google colaboratory! المزيد من الوثائق التعليمية متوفرة هنا.

قائمة رهيبة

تتوفر مجموعة من أوراق الأبحاث والمراجعة للتعلم التعزيز متعدد الوكلاء (MARL). تم تنظيم الأوراق بناءً على تاريخ نشرها وتقييمها للبيئات المقابلة.

الخوارزميات: البيئات:

مجتمع

قناة	وصلة
مشاكل	قضايا جيثب

خريطة الطريق

تتوفر خارطة الطريق إلى الإصدار المستقبلي في Roadmap.md.

المساهمة

نحن فريق صغير في تعلم التعزيز متعدد الوكلاء ، وسوف نأخذ كل المساعدة التي يمكننا الحصول عليها! إذا كنت ترغب في المشاركة ، فإليك معلومات حول إرشادات المساهمة وكيفية اختبار الكود محليًا.

يمكنك المساهمة بطرق متعددة ، على سبيل المثال ، الإبلاغ عن الأخطاء أو كتابة أو ترجمة الوثائق أو مراجعة أو إعادة تمثيل التعليمات البرمجية أو طلب ميزات جديدة أو تنفيذها ، إلخ.

اقتباس

إذا كنت تستخدم Marllib في بحثك ، فيرجى الاستشهاد بورق Marllib.

@article{hu2022marllib,
  author  = {Siyi Hu and Yifan Zhong and Minquan Gao and Weixun Wang and Hao Dong and Xiaodan Liang and Zhihui Li and Xiaojun Chang and Yaodong Yang},
  title   = {MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2023},
}

الأعمال التي تستند إلى أو تتعاون بشكل وثيق مع Marllib <link>

@InProceedings{hu2022policy,
      title={Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent {RL}},
      author={Hu, Siyi and Xie, Chuanlong and Liang, Xiaodan and Chang, Xiaojun},
      booktitle={Proceedings of the 39th International Conference on Machine Learning},
      year={2022},
}
@misc{zhong2023heterogeneousagent,
      title={Heterogeneous-Agent Reinforcement Learning}, 
      author={Yifan Zhong and Jakub Grudzien Kuba and Siyi Hu and Jiaming Ji and Yaodong Yang},
      archivePrefix={arXiv},
      year={2023},
}

يوسع

معلومات إضافية

الإصدار v1.0.3
النوع بايثون
وقت التحديث 2025-07-13
الحجم 64.91MB
من Github

تطبيقات ذات صلة

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Redash أداة مخطط البيانات مفتوحة المصدر v24.10.0

2024-11-27
datamule python

2024-11-08
منصة تصور البيانات SmartChart v6.9

2024-11-27
أداة اختبار حمل الجراد v2.32.0

2024-11-27

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
Redash أداة مخطط البيانات مفتوحة المصدر v24.10.0

بايثون

24.10.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل