Lightzero
تم تحديثه في 2024.12.10 Lightzero-V0.1.0
الإنجليزية | 简体中文 (صينية مبسطة) | الوثائق | ورقة Lightzero | ورقة Unizero | ورقة rezero
Lightzero هي مجموعة أدوات خوارزمية خفيفة الوزن وفعالة وسهلة الفهم مفتوحة المصدر تجمع بين Monte Carlo Tree Search (MCTS) وتعلم التعزيز العميق (RL). للحصول على أي أسئلة حول Lightzero ، يمكنك استشارة مساعد أسئلة وأجوبة قائم على القطع: Zeropal.
؟ خلفية
حقق تكامل البحث عن شجرة مونت كارلو وتعلم التعزيز العميق ، الذي تمثله Alphazero و Muzero ، مستويات أداء غير مسبوقة في مختلف الألعاب ، بما في ذلك Go و Atari. لقد اتخذت هذه المنهجية المتقدمة أيضًا خطوات كبيرة في المجالات العلمية مثل التنبؤ ببنية البروتين والبحث عن خوارزميات تكاثر المصفوفة. فيما يلي نظرة عامة على التطور التاريخي لسلسلة خوارزمية البحث عن شجرة مونت كارلو:
الصورة أعلاه هي خط أنابيب إطار Lightzero. نقدم بإيجاز الوحدات الأساسية الثلاث أدناه:
النموذج : يستخدم Model لتحديد بنية الشبكة ، بما في ذلك وظيفة __init__ لتهيئة بنية الشبكة والوظيفة forward لحساب الانتشار الأمامي للشبكة.
السياسة : تحدد Policy الطريقة التي يتم بها تحديث الشبكة وتفاعلها مع البيئة ، بما في ذلك ثلاث عمليات: عملية learning ، وعملية collecting ، وعملية evaluation .
MCTS : يحدد MCTS هيكل شجرة البحث Monte Carlo والطريقة التي تتفاعل بها مع السياسة. يتضمن تنفيذ MCTS لغتين: Python و C ++ ، تم تنفيذه في ptree و ctree ، على التوالي.
بالنسبة لهيكل ملف Lightzero ، يرجى الرجوع إلى Lightzero_File_Structure.
؟ خوارزميات متكاملة
Lightzero هي مكتبة ذات تطبيق Pytorch لخوارزميات MCTS (جنبًا إلى جنب أحيانًا مع Cython و CPP) ، بما في ذلك:
- ألفازيرو
- موزرو
- أخذ عينات من Muzero
- موزرو ستوكاستيك
- effaiDzero
- Gumbel Muzero
- Rezero
- Unizero
يتم عرض البيئات والخوارزميات التي تدعمها Lightzero حاليًا في الجدول أدناه:
| ENV./algo. | ألفازيرو | موزرو | أخذ عينات من Muzero | effaiDzero | أخذ عينات من الكفاءة | Gumbel Muzero | موزرو ستوكاستيك | Unizero | عينة Unizero | Rezero |
|---|
| Tictactoe | ✔ | ✔ | | | | ✔ | | ✔ | | |
| جوموكو | ✔ | ✔ | | | | ✔ | | ✔ | | ✔ |
| Connect4 | ✔ | ✔ | | | | | | ✔ | | ✔ |
| 2048 | --- | ✔ | | | | | ✔ | ✔ | | |
| الشطرنج | | | | | | | | | | |
| يذهب | | | | | | | | | | |
| Cartpole | --- | ✔ | | ✔ | ✔ | ✔ | ✔ | ✔ | | ✔ |
| البندول | --- | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | | ✔ | |
| القمر | --- | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | |
| bipedalwalker | --- | ✔ | ✔ | ✔ | ✔ | ✔ | | | ✔ | |
| أتاري | --- | ✔ | | ✔ | ✔ | ✔ | ✔ | ✔ | | ✔ |
| السيطرة العميقة | --- | --- | ✔ | --- | ✔ | | | | ✔ | |
| mujoco | --- | ✔ | | ✔ | ✔ | | | | | |
| minigrid | --- | ✔ | | ✔ | ✔ | | | ✔ | | |
| bsuite | --- | ✔ | | ✔ | ✔ | | | ✔ | | |
| ذاكرة | --- | ✔ | | ✔ | ✔ | | | ✔ | | |
| Sumtothree (البلياردو) | --- | | | | ✔ | | | | | |
| مفصل | --- | | | | ✔ | | | | | |
(1): "✔" يعني أن العنصر المقابل قد انتهى واختباره جيدًا.
(2): "" يعني أن العنصر المقابل موجود في قائمة الانتظار (العمل قيد التقدم).
(3): "---" تعني أن هذه الخوارزمية لا تدعم هذه البيئة.
تثبيت
يمكنك تثبيت أحدث Lightzero في التطوير من رموز مصدر Github مع الأمر التالي:
git clone https://github.com/opendilab/LightZero.git
cd LightZero
pip3 install -e .
يرجى ملاحظة أن Lightzero يدعم حاليًا التجميع فقط على منصات Linux و macOS . نحن نعمل بنشاط على توسيع هذا الدعم إلى منصة Windows . صبرك خلال هذا الانتقال هو موضع تقدير كبير.
التثبيت مع Docker
نحن نقدم أيضًا Dockerfile يقوم بإعداد بيئة مع جميع التبعيات اللازمة لتشغيل مكتبة Lightzero. تعتمد صورة Docker هذه على Ubuntu 20.04 وتثبيت Python 3.8 ، إلى جانب الأدوات والمكتبات الضرورية الأخرى. إليك كيفية استخدام DockerFile لإنشاء صورة Docker ، وتشغيل حاوية من هذه الصورة ، وتنفيذ رمز Lightzero داخل الحاوية.
- قم بتنزيل Dockerfile : يقع Dockerfile في الدليل الجذر لمستودع Lightzero. قم بتنزيل هذا الملف على جهازك المحلي.
- قم بإعداد سياق الإنشاء : قم بإنشاء دليل فارغ جديد على جهازك المحلي ، وحرك Dockerfile إلى هذا الدليل ، وانتقل إلى هذا الدليل. تساعد هذه الخطوة على تجنب إرسال ملفات غير ضرورية إلى Docker Daemon أثناء عملية الإنشاء.
mkdir lightzero-docker
mv Dockerfile lightzero-docker/
cd lightzero-docker/
- إنشاء صورة Docker : استخدم الأمر التالي لإنشاء صورة Docker. يجب تشغيل هذا الأمر من داخل الدليل الذي يحتوي على dockerfile.
docker build -t ubuntu-py38-lz:latest -f ./Dockerfile .
- قم بتشغيل حاوية من الصورة : استخدم الأمر التالي لبدء حاوية من الصورة في الوضع التفاعلي مع قذيفة باش.
docker run -dit --rm ubuntu-py38-lz:latest /bin/bash
- قم بتنفيذ رمز Lightzero داخل الحاوية : بمجرد أن تكون داخل الحاوية ، يمكنك تشغيل نص Python مع الأمر التالي:
python ./LightZero/zoo/classic_control/cartpole/config/cartpole_muzero_config.py
بداية سريعة
تدريب وكيل Muzero للعب Cartpole:
cd LightZero
python3 -u zoo/classic_control/cartpole/config/cartpole_muzero_config.py
تدريب وكيل Muzero للعب بونغ:
cd LightZero
python3 -u zoo/atari/config/atari_muzero_segment_config.py
تدريب وكيل Muzero للعب Tictactoe:
cd LightZero
python3 -u zoo/board_games/tictactoe/config/tictactoe_muzero_bot_mode_config.py
تدريب وكيل Unizero للعب بونغ:
cd LightZero
python3 -u zoo/atari/config/atari_unizero_segment_config.py
الوثائق
يمكن العثور على وثائق Lightzero هنا. أنه يحتوي على دروس ومرجع API.
للراغبين في تخصيص البيئات والخوارزميات ، نقدم الأدلة ذات الصلة:
- تخصيص البيئات
- تخصيص الخوارزميات
- كيفية تعيين ملفات التكوين؟
- نظام التسجيل والمراقبة
إذا كان لديك أي أسئلة ، فلا تتردد في الاتصال بنا للحصول على الدعم.
معيار
انقر للتوسع
- فيما يلي النتائج القياسية لـ Alphazero و Muzero على ثلاث ألعاب على الطاولة: Tictactoe ، Connect4 ، Gomoku.



- فيما يلي النتائج القياسية لـ Muzero و Muzero w/ SSL و effainzero وأخذ عينات من كفاءة في ثلاث ألعاب فضائية منفصلة في أتاري.




- فيما يلي النتائج المعيارية لـ Sampled Efficizero مع تمثيل سياسة
Factored/Gaussian على ثلاث ألعاب كلاسيكية في مجال العمل المستمر: Pendulum-V1 ، Lunarlandercontinuous-V2 ، Bipedalwalker-V3 وألعاب عمل Mujoco المستمرة: Hopper-V3 ، Walker2d-V3.
تشير "السياسة المؤكدة" إلى أن الوكيل يتعلم شبكة سياسة تخرج توزيعًا فئويًا. بعد التقدير اليدوي ، تكون أبعاد مساحة الحركة للبيئات الخمسة هي 11 ، 49 (7^2) ، 256 (4^4) ، 64 (4^3) ، و 4096 (4^6) ، على التوالي. من ناحية أخرى ، تشير "السياسة الغوسية" إلى الوكيل الذي يتعلم شبكة سياسة تقوم بإخراج المعلمات مباشرة (MU و Sigma) لتوزيع Gaussian.






- فيما يلي النتائج القياسية لـ Gumbelmuzero و Muzero (تحت تكلفة محاكاة مختلفة) على أربع بيئات: Pongnoframeskip-V4 ، Mspacmannoframeskip-V4 ، Gomoku ، و LunarlanderContinuour-V2.




- فيما يلي النتائج القياسية لـ StochasticMuzero و Muzero في بيئة 2048 مع مستويات متفاوتة من الفرصة (num_chances = 2 و 5).


- فيما يلي النتائج القياسية لمختلف آليات استكشاف MCTS لـ Muzero W/ SSL في البيئة Minigrid.


ملاحظات رهيبة
ملاحظات ورقية
فيما يلي الملاحظات الورقية التفصيلية (باللغة الصينية) للخوارزميات المذكورة أعلاه:
انقر للانهيار
- ألفازيرو
- موزرو
- effaiDzero
- SampleDmuzero
- Gumbelmuzero
- StochasticMuzero
- تزيين
يمكنك أيضًا الرجوع إلى عمود Zhihu ذي الصلة (باللغة الصينية): التحليل المتعمق لنظريات وتطبيقات حدود MCTS+RL.
Algo. ملخص
فيما يلي نظرة عامة على مخططات مبدأ MCTS للخوارزميات المذكورة أعلاه:
انقر للتوسع
- MCTS
- ألفازيرو
- موزرو
- effaiDzero
- SampleDmuzero
- Gumbelmuzero
- StochasticMuzero
أوراق رهيبة MCTS
فيما يلي مجموعة من الأوراق البحثية حول بحث Monte Carlo Tree . سيتم تحديث هذا القسم بشكل مستمر لتتبع حدود MCTS.
الأوراق الرئيسية
انقر للتوسع
سلسلة Lightzero تنفذ
- 2018 Science Alphazero: خوارزمية تعليمية عامة تعليمية تتقن الشطرنج ، Shogi ، وتذهب من خلال اللعب الذاتي
- 2019 Muzero: إتقان Atari و Go و Chess و Shogi من خلال التخطيط مع نموذج مستفاد
- 2021 effainzero: إتقان ألعاب Atari مع بيانات محدودة
- 2021 تم أخذ عينات من Muzero: التعلم والتخطيط في مساحات العمل المعقدة
- 2022 Stochastic Muzero: التخطيط في البيئات العشوائية مع نموذج مستفاد
- 2022 Gumbel Muzero: تحسين السياسة من خلال التخطيط مع Gumbel
سلسلة ألفاغو
- 2015 Nature Alphago تتقن لعبة Go مع الشبكات العصبية العميقة والبحث عن الأشجار
- 2017 Nature Alphago Zero يتقن لعبة GO بدون معرفة بشرية
- 2019 ELF Opengo: تحليل وإعادة تفسير مفتوح من Alphazero
- 2023 طالب الألعاب: خوارزمية تعليمية موحدة لكل من ألعاب المعلومات المثالية وغير الكاملة
سلسلة Muzero
- 2022 التعلم التعزيز عبر الإنترنت وغير المتصلة بالإنترنت من خلال التخطيط مع نموذج مستفاد
- 2021 ناقلات النماذج الكمية للتخطيط
- 2021 Muesli: الجمع بين التحسينات في تحسين السياسة.
تحليل MCTS
- 2020 Monte-Carlo Tree Search كتحسين منظم السياسة
- 2021 نماذج وقيم متسقة ذاتيا
- 2022 سياسات الخصومة تغلب على المستوى المهني GO AIS
- 2022 PNAS الاستحواذ على معرفة الشطرنج في ألفازيرو.
تطبيق MCTS
- 2023 متعلم الفيزياء الرمزية: اكتشاف المعادلات الحاكمة عبر البحث عن شجرة مونت كارلو
- 2022 الطبيعة اكتشاف خوارزميات تكاثر المصفوفة بشكل أسرع مع التعرف على التعزيز
- 2022 Muzero مع التنافس الذاتي للتحكم في الأسعار في ضغط الفيديو VP9
- 2021 Douzero: إتقان Doudizhu مع التعلم التعزيز العميق للعب الذاتي
- 2019 الجمع بين التخطيط وتعلم التعزيز العميق في اتخاذ القرارات التكتيكية للقيادة المستقلة
أوراق أخرى
انقر للتوسع
ICML
- تحسين السياسة الآمنة القابلة للتطوير عبر البحث عن شجرة مونتي كارلو 2023
- Alberto Castellini ، Federico Bianchi ، Edoardo Zorzi ، Thiago D. Simão ، Alessandro Farinelli ، Matthijs TJ Spaan
- المفتاح: تحسين السياسة الآمنة عبر الإنترنت باستخدام استراتيجية تعتمد على MCTS ، وتحسين السياسة الآمنة مع bootstrapping الأساس
- Expenv: Gridworld و Sysadmin
- التعلم الفعال للألفازيرو عبر اتساق المسار 2022
- Dengwei Zhao ، Shikui Tu ، Lei Xu
- المفتاح: كمية محدودة من اللعب الذاتي ، تناسق المسار (PC)
- Expenv: Go ، Othello ، Gomoku
- تصور نماذج Muzero 2021
- Joery A. De Vries ، Ken S. Voskuil ، Thomas M. Moerland ، Aske Plaat
- المفتاح: تصور نموذج ديناميات ما يعادل القيمة ، تتباعد مسارات العمل ، تقنيان تنظيمان
- Expenv: Cartpole و MountainCar.
- تنظيم محدب في البحث عن شجرة مونتي كارلو 2021
- سد توان ، كارلو دي إيرامو ، جان بيترز ، جوني باجارينين
- المفتاح: عوامل النسخ الاحتياطية المنتظمة ، تحليل الأسف ، تساليس etropy ،
- Expenv: شجرة اصطناعية ، أتاري
- شجرة مرشح جسيمات المعلومات: خوارزمية عبر الإنترنت لـ POMDPs مع مكافآت قائمة على الاعتقاد على المجالات المستمرة 2020
- يوهانس فيشر ، أومر ساهين تاس
- المفتاح: POMDP المستمر ، شجرة مرشح الجسيمات ، تشكيل المكافآت المستندة إلى المعلومات ، جمع المعلومات.
- Expenv: POMDPS.JL Framework
- شفرة
- Retro*: تعلم التخطيط للأثر رجعي مع Neural Guided A* Search 2020
- بينغهونغ تشن ، تشينجتو لي ، هانجون داي ، لو سونج
- المفتاح: التخطيط الجاد الكيميائي ، خوارزمية A*-مثل العصبية ، وشجرة Andor
- Expenv: مجموعات بيانات USPTO
- شفرة
ICLR
- إطار معادلة التحديث لتخطيط وقت القرار 2024
- صموئيل سوكوتا ، غابرييل فارينا ، ديفيد ج. وو ، هينغيوان هو ، كيفن أ. وانغ ، جيه زيكو كولتر ، نام براون
- المفتاح: ألعاب المعلومات غير الكاملة ، البحث ، تخطيط وقت القرار ، معادلة التحديث
- Expenv: Hanabi ، 3x3 مفاجئ Dark Hex و Phantom Tic-Tac-Toe
- تعلم التعزيز الفعال متعدد الوكلاء عن طريق التخطيط 2024
- Qihan Liu ، Jianing Ye ، Xiaoteng MA ، Jun Yang ، Bin Liang ، Chongjie Zhang
- المفتاح: التعلم التعزيز متعدد الوكلاء ، التخطيط ، MCTS متعدد الوكلاء
- Expenv: SMAC ، Lunarlander ، Mujoco ، و Google Research Football
- كن لاعبًا بارعًا لديه بيانات محدودة من خلال مشاهدة مقاطع الفيديو الخالصة 2023
- Weirui ye ، Yunsheng Zhang ، Pieter Abbeel ، Yang Gao
- المفتاح: التدريب المسبق من مقاطع الفيديو الخالية من الإجراءات ، والهدف الاتحادي للدوران الأمامي (FICC) استنادًا إلى كمية المتجه ، ومرحلة ما قبل التدريب ، ومرحلة ضبطها.
- Expenv: أتاري
- التنافس الذاتي القائم على السياسة للتخطيط لمشاكل 2023
- جوناثان بيرناي ، Quirin Göttl ، Jakob Burger ، Dominik Gerhard Grimm
- المفتاح: التنافس الذاتي ، ابحث عن مسارات قوية من خلال التخطيط ضد الاستراتيجيات المحتملة لنفسها الماضي.
- Expenv: مشكلة البائع في السفر ومشكلة جدولة متجر الوظائف.
- شرح نماذج الرسم البياني الزمني من خلال إطار Explorer-Navigator 2023
- Wenwen Xia ، Mincai Lai ، Caihua Shan ، Yao Zhang ، Xinnan Dai ، Xiang Li ، Dongsheng Li
- المفتاح: Temporal GNN Explorer ، مستكشف للعثور على مجموعات فرعية الحدث مع MCTS ، وهو مستكشف يتعلم الارتباط بين الأحداث ويساعد في تقليل مساحة البحث.
- Expenv: Wikipedia و Reddit ، مجموعات البيانات الاصطناعية
- Speedyzero: إتقان Atari مع بيانات محدودة ووقت 2023
- Yixuan Mei ، Jiaxuan Gao ، Weirui Ye ، Shaohuai Liu ، Yang Gao ، Yi Wu
- المفتاح: نظام RL الموزعة ، تحديث الأولوية ، لارس المقطوع
- Expenv: أتاري
- تحسين السياسة غير المتصلة بكفاءة مع نموذج 2023 المستفاد
- Zichen Liu ، Siyi Li ، Wee Sun Lee ، Shuicheng Yan ، Zhongwen Xu
- المفتاح: خوارزمية منظمة واحدة تستند إلى طراز من خطوة واحدة لصالح R-RL
- Expenv: أتاري , bsuite
- شفرة
- تمكين أهداف الترجمة التعسفية مع بحث الأشجار التكيفي 2022
- Wang Ling ، Wojciech Stokowiec ، Domenic Donato ، Chris Dyer ، Lei Yu ، Laurent Sartran ، Austin Matthews
- المفتاح: البحث عن الأشجار التكيفية ، نماذج الترجمة ، نماذج الانحدار التلقائي ،
- Expenv: المهام الصينية والإنجليزية والباشتو -الإنجليزية من WMT2020 ، الألمانية -الإنجليزية من WMT2014
- ما هو الخطأ في التعلم العميق في البحث عن الأشجار عن التحسين التوافقي 2022
- Maximili1an Böther ، Otto Kißig ، Martin Taraz ، Sarel Cohen ، Karen Seidel ، Tobias Friedrich
- المفتاح: التحسين التوافقي ، الجناح القياسي المفتوح للمصدر لمشكلة مجموعة مستقلة أقصى مستقلة عن NP-Hard ، وهو تحليل متعمق لخوارزمية البحث عن الأشجار المصحوبة بمرشدين ، قارن تطبيقات بحث الأشجار بمحلول أخرى
- Expenv: NP-HARD MAXIMUM SET المستقلة.
- شفرة
- Monte-Carlo التخطيط والتعلم مع تقديرات قيمة الإجراءات اللغوية 2021
- Youngsoo Jang ، Seokin Seo ، Jongmin Lee ، Kee-Eung Kim
- المفتاح: البحث عن شجرة مونتي كارلو مع استكشاف تعتمد على اللغة ، وتقديرات قيمة اللغة المتفائلة محليًا.
- Expenv: ألعاب خيال تفاعلي (IF)
- تطبق بحث عملي على شجرة مونتي كارلو بشكل كبير على التصميم الجزيئي 2021
- Xiufeng Yang ، Tanuj Kr Aasawat ، Kazuki Yoshizoe
- المفتاح: البحث المتوازي على أشجار مونتي كارلو ، التصميم الجزيئي ، البحث المتوازي الذي يحركه التجزئة ،
- ExpenV: معامل قسم الأوكتانول والمياه (LOGP) معاقبة من خلال إمكانية الوصول الاصطناعية (SA) ودرجة ركلة جزاء كبيرة.
- شاهد غير الملاحظة: نهج بسيط لموازنة بحث شجرة مونت كارلو 2020
- Anji Liu ، Jianshu Chen ، Mingze Yu ، Yu Zhai ، Xuewen Zhou ، Ji Liu
- المفتاح: البحث عن شجرة مونتي كارلو الموازية ، تقسيم الشجرة إلى الأشجار الفرعية بكفاءة ، قارن نسبة المراقبة لكل معالج.
- Expenv: Speedup and Performance مقارنة على لعبة Joy-City ، متوسط الحلقة العودة على Atari Game
- شفرة
- تعلم التخطيط بأبعاد عالية عبر أشجار الاستكشاف العصبي 2020
- Binghong Chen ، Bo Dai ، Qinjie Lin ، Guo Ye ، Han Liu ، Le Song
- المفتاح: خوارزمية تخطيط مسار META ، تستغل بنية عصبية جديدة يمكن أن تتعلم اتجاهات البحث الواعدة من هياكل المشكلات.
- ExpenV: مساحة عمل ثنائية الأبعاد مع روبوت نقاط DOF (درجات الحرية) ، روبوت 3 DOF DOF وروبوت 5 DOF Snake
العصبية
- Lightzero: معيار موحد للبحث عن شجرة Monte Carlo في سيناريوهات القرار المتسلسل العام 2023
- Yazhe Niu ، Yuan Pu ، Zhenjie Yang ، Xueyan Li ، Tong Zhou ، Jiyuan Ren ، Shuai Hu ، Hongsheng Li ، Yu Liu
- المفتاح: أول معيار موحد لنشر MCTS/Muzero في سيناريوهات القرار المتسلسل العام.
- Expenv: ClassicControl ، Box2d ، Atari ، Mujoco ، Gobigger ، Minigrid ، Tictactoe ، ConnectFour ، Gomoku ، 2048 ، إلخ.
- نماذج لغوية كبيرة كمعرفة بالمنسق لتخطيط المهام على نطاق واسع 2023
- Zirui Zhao ، Wee Sun Lee ، David Hsu
- المفتاح: يمكن دمج النموذج العالمي (LLM) والسياسة الناجمة عن LLM في MCTS ، لتوسيع نطاق تخطيط المهام.
- Expenv: الضرب ، تخطيط السفر ، إعادة ترتيب الكائن
- بحث شجرة مونت كارلو مع استكشاف بولتزمان 2023
- مايكل رسام ، محمد بايوي ، نيك هاوز ، برونو لاكردا
- المفتاح: استكشاف Boltzmann مع MCTS ، لا تتوافق الإجراءات الأمثل لأقصى هدف إنتروبيا مع الإجراءات المثلى للهدف الأصلي ، وهما خوارزميات محسّنة.
- Expenv: بيئة البحيرة المجمدة ، مشكلة الإبحار ، اذهب
- تناسق المسار المرجح المعمم لإتقان ألعاب أتاري 2023
- Dengwei Zhao ، Shikui Tu ، Lei Xu
- المفتاح: تناسق المسار المرجح المعمم ، آلية ترجيح.
- Expenv: أتاري
- تسريع البحث عن شجرة مونت كارلو مع تجريد حالة شجرة الاحتمال 2023
- Yangqing Fu ، Ming Sun ، Buqing Nie ، Yue Gao
- المفتاح: تجريد حالة شجرة الاحتمال ، والانتقال وخطأ التجميع.
- Expenv: Atari ، Cartpole ، Lunarlander ، Gomoku
- قضاء وقت التفكير بحكمة: تسريع MCTs مع التوسعات الافتراضية 2022
- Weirui ye ، Pieter Abbeel ، Yang Gao
- المفتاح: تداول الحساب مقابل الأداء ، التوسعات الافتراضية ، قضاء وقت التفكير على التكيف.
- Expenv: أتاري ، 9x9 اذهب
- التخطيط لعينة التعلم المقلدة الفعال 2022
- Zhao-Heng Yin ، Weirui ye ، Qifeng Chen ، Yang Gao
- المفتاح: الاستنساخ السلوكي , التعلم التقليدي للخصومة (AIL) , RL المستندة إلى MCTS.
- Expenv: جناح التحكم في DeepMind
- شفرة
- تقييم ما وراء أداء المهمة: تحليل المفاهيم في ألفازيرو في HEX 2022
- تشارلز ليفينج ، جيسيكا زوسا فورد ، جورج كونيداريس ، إيلي بافليك ، مايكل ل. ليتمان
- المفتاح: التمثيلات الداخلية لألفازيرو ، والتحقيق النموذجي والاختبارات السلوكية ، وكيفية التقاط هذه المفاهيم في الشبكة.
- Expenv: Hex
- هل العوامل التي تشبه ألفازيرو قوية للاضطرابات العدائية؟ 2022
- Li-Cheng Lan ، Huan Zhang ، Ti-Rong Wu ، Meng-Yu Tsai ، I-Chen Wu ، 4 Cho-Jui Hsieh
- المفتاح: حالات الخصومة ، أول هجوم عدواني على Go AIS.
- Expenv: اذهب
- هبوط شجرة مونت كارلو لتحسين صندوق الأسود 2022
- Yaoguang Zhai ، Sicun Gao
- المفتاح: تحسين الصندوق الأسود ، كيفية زيادة دمج النسب المستند إلى التحسين بشكل أسرع.
- ExpenV: الوظائف الاصطناعية للتحسين غير الخطي ، ومشاكل التعلم التعزيز في بيئات مواجو Mujoco ، ومشاكل التحسين في البحث عن العمارة العصبية (NAS).
- اختيار متغير قائم على البحث عن شجرة مونتي كارلو لتحسين بايزي عالي الأبعاد 2022
- Lei Song ∗ ، Ke Xue ∗ ، Xiaobin Huang ، Chao Qian
- المفتاح: مساحة فرعية منخفضة الأبعاد عبر MCTS ، تعمل على تحسين في الفضاء الفرعي مع أي خوارزمية تحسين بايزي.
- Expenv: مشاكل NAS-BECK
- بحث Monte Carlo Tree مع تجريدات حالة التكرير المتكررة 2021
- صموئيل سوكوتا ، كالب هو ، زاهين أحمد ، ج. زيكو كولتر
- المفتاح: البيئات العشوائية ، الاتساع التدريجي ، تكرير التجريد
- Expenv: Blackjack ، فخ ، خمسة خمسين GO.
- التخطيط العميق مونت كارلو في استطلاع الشطرنج العمياء 2021
- غريغوري كلارك
- المفتاح: المعلومات غير الكاملة ، حالة الإيمان مع مرشح الجسيمات غير المرغوب فيه ، تجريد عشوائي جديد لحالات المعلومات.
- Expenv: استطلاع الشطرنج الأعمى
- Poly-Hoot: Monte-Carlo Planning في MDPs في الفضاء المستمر مع تحليل غير معارض 2020
- Weichao Mao ، Kaiqing Zhang ، Qiaomin Xie ، Tamer Ba¸sar
- المفتاح: مساحات العمل المستمر ، والتحسين الهرمي المتفائل.
- Expenv: Cartpole ، البندول المقلوب ، التأرجح ، والقمص.
- تعليمي قسم البحث في مجال البحث الأسود باستخدام Monte Carlo Tree Search 2020
- Linnan Wang ، Rodrigo Fonseca ، Yuandong Tian
- المفتاح: يتعلم تقسيم مساحة البحث باستخدام بعض العينات ، وحدود القرار غير الخطي ويتعلم نموذجًا محليًا لاختيار المرشحين الجيدين.
- Expenv: مهام الحركة Mujoco ، معايير صغيرة ،
- مزيج ومطابقة: نهج البحث عن الأشجار المتفائل في نماذج التعلم من توزيعات الخليط 2020
- ماثيو فاو ، راجات سين ، كارثيكيان شانموغام ، قسطنطين كارامانيس ، سانجاي شاكوتاي
- المفتاح: مشكلة التحول المتغير ، مزيج ومطابقة يجمع بين نزول التدرج العشوائي (SGD) مع البحث عن الأشجار المتفائل وإعادة استخدام النموذج (تتطور نماذج مدربة جزئيًا مع عينات من توزيعات خليط مختلفة)
- شفرة
مؤتمر أو مجلة أخرى
- تعلم التوقف: محاكاة ديناميكية Monte-Carlo Tree Search AAAI 2021.
- في Monte Carlo Tree Search and التعزيز مجلة أبحاث الذكاء الاصطناعي 2017.
- البحث عن العمارة العصبية الفعالة من خلال إجراءات التعلم لبحث شجرة مونت كارلو IEEE المعاملات على تحليل الأنماط وذكاء الآلة 2022.
ردود الفعل والمساهمة
تقديم مشكلة على جيثب
افتح أو شارك في منتدى المناقشة لدينا
ناقش على خادم Discord Lightzero
اتصل بالبريد الإلكتروني ([email protected])
نحن نقدر جميع ردود الفعل والمساهمات لتحسين Lightzero ، كل من الخوارزميات وتصميمات النظام.
؟ اقتباس
@article{niu2024lightzero,
title={LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios},
author={Niu, Yazhe and Pu, Yuan and Yang, Zhenjie and Li, Xueyan and Zhou, Tong and Ren, Jiyuan and Hu, Shuai and Li, Hongsheng and Liu, Yu},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
@article{pu2024unizero,
title={UniZero: Generalized and Efficient Planning with Scalable Latent World Models},
author={Pu, Yuan and Niu, Yazhe and Ren, Jiyuan and Yang, Zhenjie and Li, Hongsheng and Liu, Yu},
journal={arXiv preprint arXiv:2406.10667},
year={2024}
}
@article{xuan2024rezero,
title={ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze},
author={Xuan, Chunyu and Niu, Yazhe and Pu, Yuan and Hu, Shuai and Liu, Yu and Yang, Jing},
journal={arXiv preprint arXiv:2404.16364},
year={2024}
}؟ شكر وتقدير
تم تطوير هذا المشروع جزئيًا بناءً على الأعمال الرائدة التالية على مستودعات جيثب. نعبر عن امتناننا العميق لهذه الموارد الأساسية:
- https://github.com/opendilab/di- محرك
- https://github.com/deepmind/mctx
- https://github.com/yewr/ffectivezero
- https://github.com/werner-duvaud/muzero- general
نود تقديم شكرنا الخاص للمساهمين التاليين @parazz1 ، karroyan ، nighood ، @jayyoung0802 ، timeothijoe ، @tutuhuss ، @harryxuancy ، @puyuan1996 ، hansbug للحصول على مساهماتها القيمة ودعمها في مكتبة العزلة.
شكرا لجميع الذين ساهموا في هذا المشروع:
ترخيص؟
جميع التعليمات البرمجية داخل هذا المستودع تحت رخصة Apache 2.0.
(العودة إلى الأعلى)