هذا هو تطبيق لخوارزمية Alphazero للعب لعبة Simple Board Gomoku (تسمى أيضًا Gobang أو خمسة على التوالي) من التدريب الخالص للعب الذاتي. لعبة Gomoku أبسط بكثير من Go أو Chess ، حتى نتمكن من التركيز على مخطط تدريب Alphazero والحصول على نموذج AI جيد جدًا على جهاز كمبيوتر واحد في غضون ساعات قليلة.
مراجع:
للعب مع نماذج الذكاء الاصطناعى المدربين ، تحتاج فقط:
لتدريب نموذج الذكاء الاصطناعى من الصفر ، حاجة مزيد ، إما:
ملاحظة : إذا كان إصدار Theano الخاص بك> 0.7 ، فيرجى اتباع هذه المشكلة لتثبيت اللازانيا ،
خلاف ذلك ، فرض PIP لخفض THEANO إلى 0.7 pip install --upgrade theano==0.7.0
إذا كنت ترغب في تدريب النموذج باستخدام أطر DL أخرى ، فأنت بحاجة فقط إلى إعادة كتابة Policy_value_net.py.
للعب مع النماذج المقدمة ، قم بتشغيل البرنامج النصي التالي من الدليل:
python human_play.py
يمكنك تعديل Human_Play.py لتجربة نماذج مختلفة المقدمة أو MCTs النقية.
لتدريب نموذج الذكاء الاصطناعى من الصفر ، مع Theano و Lasagne ، تشغيل مباشرة:
python train.py
مع Pytorch أو TensorFlow ، قم أولاً بتعديل Train.py ، أي التعليق على السطر
from policy_value_net import PolicyValueNet # Theano and Lasagne
و unfomment the line
# from policy_value_net_pytorch import PolicyValueNet # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow
ثم تنفيذ: python train.py (لاستخدام GPU في pytorch ، set use_gpu=True واستخدم return loss.item(), entropy.item() في وظيفة train_step في policy_value_net_pytorch.py إذا كانت نسخة pytorch أكبر من 0.5)
سيتم حفظ النماذج (Best_policy.model و current_policy.model) كل بعض التحديثات (الافتراضي 50).
ملاحظة: تم تدريب النماذج 4 المقدمة باستخدام Theano/Lasagne ، لاستخدامها مع Pytorch ، يرجى الرجوع إلى العدد 5.
نصائح للتدريب:
مقالتي تصف بعض التفاصيل حول التنفيذ باللغة الصينية: https://zhuanlan.zhihu.com/p/32089487