muzero general Download - muzero general Source Code Download

muzero general

بايثون

1.0.0

تنزيل

Muzero جنرال

تنفيذ معلق وموثق لـ Muzero استنادًا إلى ورقة Google DeepMind (Schrittwieser et al. ، نوفمبر 2019) والرمز الكاذب المرتبط به. إنه مصمم ليكون قابلاً للتكيف بسهولة مع كل الألعاب أو بيئات التعلم التعزيز (مثل الصالة الرياضية). تحتاج فقط إلى إضافة ملف لعبة مع المقاييس الفائقة وفئة اللعبة. يرجى الرجوع إلى الوثائق والمثال. هذا التنفيذ هو في المقام الأول للأغراض التعليمية.
فيديو توضيحي لموزيرو

Muzero هي خوارزمية على أحدث طراز RL لألعاب الطاولة (لعبة الشطرنج ، GO ، ...) وأتاري ألعاب. إنه خليفة ألفازيرو ولكن دون أي معرفة بالبيئة الكامنة وراء الديناميات. يتعلم Muzero نموذجًا للبيئة ويستخدم تمثيلًا داخليًا يحتوي فقط على المعلومات المفيدة للتنبؤ بالمكافأة والقيمة والسياسة والتحولات. Muzero قريب أيضًا من شبكات التنبؤ بالقيمة. انظر كيف يعمل.

سمات

مزيد من التحسينات

فيما يلي قائمة بالميزات التي قد تكون مثيرة للاهتمام لإضافتها ولكنها ليست في ورقة Muzero. نحن منفتحون على المساهمات والأفكار الأخرى.

بحث فرطمي
مساحة عمل مستمرة
أداة لفهم النموذج المستفاد
دفعة MCTS
دعم أكثر من لعبتين لاعب

العرض التوضيحي

يتم تتبع جميع العروض وعرضها في الوقت الفعلي في Tensorboard:

ملخص تدريب Cartpole

اختبار Lunar Lander:

معاينة التدريب على القمر

الألعاب التي تم تنفيذها بالفعل

Cartpole (تم اختباره مع الشبكة المتصلة بالكامل)
Lunar Lander (تم اختباره في الوضع الحتمي مع الشبكة المتصلة بالكامل)
GridWorld (تم اختباره مع الشبكة المتصلة بالكامل)
tic-tac-toe (تم اختباره مع الشبكة المتصلة بالكامل والشبكة المتبقية)
Connect4 (تم اختباره قليلاً مع الشبكة المتبقية)
جوموكو
واحد وعشرون / بلاك جاك (تم اختباره مع الشبكة المتبقية)
Atari Breakout

تتم الاختبارات على Ubuntu مع ذاكرة الوصول العشوائي 16 جيجابايت / Intel I7 / GTX 1050TI MAX-Q. نتأكد من الحصول على تقدم ومستوى يضمن أنه تعلم. لكننا لا نصل بشكل منهجي إلى مستوى بشري. بالنسبة لبيئات معينة ، نلاحظ الانحدار بعد وقت معين. التكوينات المقترحة ليست مثالية بالتأكيد ولا نركز في الوقت الحالي على تحسين المقاييس المفرطة. أي مساعدة موضع ترحيب.

هيكل الكود

ملخص الشبكة:

ابدء

تثبيت

git clone https://github.com/werner-duvaud/muzero-general.git
cd muzero-general

pip install -r requirements.lock

يجري

python muzero.py

لتصور نتائج التدريب ، قم بالتشغيل في محطة جديدة:

tensorboard --logdir ./results

تكوين

يمكنك تكييف تكوينات كل لعبة عن طريق تحرير فئة MuZeroConfig للملف المعني في مجلد الألعاب.

العمل ذي الصلة

effainzero (Weirui ye ، Shaohuai Liu ، Thanard Kurutach ، Pieter Abbeel ، Yang Gao)
أخذ عينات من Muzero (Thomas Hubert ، Julian Schrittwieser ، Ioannis Antonoglou ، محمدامين باركاتين ، سيمون شميت ، ديفيد سيلفر)

المؤلفون

فيرنر دوفو
Aurèle Hainaut
بول لينوار
المساهمين

يرجى استخدام هذا bibtex إذا كنت تريد الاستشهاد بهذا المستودع (الفرع الرئيسي) في منشوراتك:

@misc{muzero-general,
  author       = {Werner Duvaud, Aurèle Hainaut},
  title        = {MuZero General: Open Reimplementation of MuZero},
  year         = {2019},
  publisher    = {GitHub},
  journal      = {GitHub repository},
  howpublished = { u rl{https://github.com/werner-duvaud/muzero-general}},
}