AlphaZero_Gomoku تنزيل - AlphaZero_Gomoku تنزيل رمز المصدر

AlphaZero_Gomoku

بايثون

1.0.0

تنزيل

ألفازيرو غوموكو

هذا هو تطبيق لخوارزمية Alphazero للعب لعبة Simple Board Gomoku (تسمى أيضًا Gobang أو خمسة على التوالي) من التدريب الخالص للعب الذاتي. لعبة Gomoku أبسط بكثير من Go أو Chess ، حتى نتمكن من التركيز على مخطط تدريب Alphazero والحصول على نموذج AI جيد جدًا على جهاز كمبيوتر واحد في غضون ساعات قليلة.

مراجع:

ألفازيرو: إتقان الشطرنج وشوجي عن طريق اللعب الذاتي مع خوارزمية تعلم التعزيز العام
Alphago Zero: إتقان لعبة الذهاب بدون معرفة بشرية

تحديث 2018.2.24: يدعم التدريب مع TensorFlow!

تحديث 2018.1.17: يدعم التدريب مع Pytorch!

مثال على الألعاب بين النماذج المدربة

كل خطوة مع 400 MCTS Playouts:

متطلبات

للعب مع نماذج الذكاء الاصطناعى المدربين ، تحتاج فقط:

بيثون> = 2.7
numpy> = 1.11

لتدريب نموذج الذكاء الاصطناعى من الصفر ، حاجة مزيد ، إما:

theano> = 0.7 و lasagne> = 0.1
أو
pytorch> = 0.2.0
أو
Tensorflow

ملاحظة : إذا كان إصدار Theano الخاص بك> 0.7 ، فيرجى اتباع هذه المشكلة لتثبيت اللازانيا ،
خلاف ذلك ، فرض PIP لخفض THEANO إلى 0.7 pip install --upgrade theano==0.7.0

إذا كنت ترغب في تدريب النموذج باستخدام أطر DL أخرى ، فأنت بحاجة فقط إلى إعادة كتابة Policy_value_net.py.

ابدء

للعب مع النماذج المقدمة ، قم بتشغيل البرنامج النصي التالي من الدليل:

 python human_play.py

يمكنك تعديل Human_Play.py لتجربة نماذج مختلفة المقدمة أو MCTs النقية.

لتدريب نموذج الذكاء الاصطناعى من الصفر ، مع Theano و Lasagne ، تشغيل مباشرة:

 python train.py

مع Pytorch أو TensorFlow ، قم أولاً بتعديل Train.py ، أي التعليق على السطر

 from policy_value_net import PolicyValueNet  # Theano and Lasagne

و unfomment the line

 # from policy_value_net_pytorch import PolicyValueNet  # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow

ثم تنفيذ: python train.py (لاستخدام GPU في pytorch ، set use_gpu=True واستخدم return loss.item(), entropy.item() في وظيفة train_step في policy_value_net_pytorch.py إذا كانت نسخة pytorch أكبر من 0.5)

سيتم حفظ النماذج (Best_policy.model و current_policy.model) كل بعض التحديثات (الافتراضي 50).

ملاحظة: تم تدريب النماذج 4 المقدمة باستخدام Theano/Lasagne ، لاستخدامها مع Pytorch ، يرجى الرجوع إلى العدد 5.

نصائح للتدريب:

من الجيد أن تبدأ بلوحة 6 * 6 و 4 على التوالي. في هذه الحالة ، قد نحصل على نموذج جيد بشكل معقول خلال 500 ~ 1000 لعبة للعب الذاتي في حوالي ساعتين.
بالنسبة لحالة 8 * 8 لوحة و 5 على التوالي ، قد تحتاج إلى 2000 ~ 3000 لعبة للعب الذاتي للحصول على طراز جيد ، وقد يستغرق الأمر حوالي يومين على جهاز كمبيوتر واحد.