นี่คือการใช้อัลกอริทึม Alphazero สำหรับการเล่นเกมกระดานง่าย ๆ Gomoku (เรียกอีกอย่างว่า Gobang หรือ Five ติดต่อกัน) จากการฝึกเล่นด้วยตนเองอย่างบริสุทธิ์ เกม Gomoku นั้นง่ายกว่า Go หรือหมากรุกมากเพื่อให้เราสามารถมุ่งเน้นไปที่รูปแบบการฝึกอบรมของ Alphazero และได้รับ AI รุ่นที่ค่อนข้างดีบนพีซีเครื่องเดียวในเวลาไม่กี่ชั่วโมง
ข้อมูลอ้างอิง:
ในการเล่นกับโมเดล AI ที่ผ่านการฝึกอบรมเพียงต้องการเท่านั้น:
ในการฝึกอบรมโมเดล AI ตั้งแต่เริ่มต้นความต้องการเพิ่มเติมเช่นกัน:
PS : หากเวอร์ชันของคุณ> 0.7 โปรดติดตามปัญหานี้เพื่อติดตั้ง Lasagne
มิฉะนั้นบังคับให้ pip เพื่อลดระดับ Theano เป็น 0.7 pip install --upgrade theano==0.7.0
หากคุณต้องการฝึกอบรมแบบจำลองโดยใช้เฟรมเวิร์ก DL อื่น ๆ คุณจะต้องเขียน policy_value_net.py ใหม่เท่านั้น
หากต้องการเล่นกับโมเดลที่ให้ไว้ให้เรียกใช้สคริปต์ต่อไปนี้จากไดเรกทอรี:
python human_play.py
คุณสามารถปรับเปลี่ยน human_play.py เพื่อลองใช้รุ่นที่แตกต่างกันหรือ MCT บริสุทธิ์
ในการฝึกอบรมโมเดล AI ตั้งแต่เริ่มต้นด้วย Theano และ Lasagne ทำงานโดยตรง:
python train.py
ด้วย pytorch หรือ tensorflow ก่อนอื่นแก้ไขไฟล์ train.py, IE แสดงความคิดเห็นบรรทัด
from policy_value_net import PolicyValueNet # Theano and Lasagne
และไม่ทำให้ไม่รู้สึกถึงบรรทัด
# from policy_value_net_pytorch import PolicyValueNet # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow
จากนั้นดำเนินการ: python train.py (เพื่อใช้ GPU ใน pytorch ให้ตั้งค่า use_gpu=True และใช้ return loss.item(), entropy.item() ในฟังก์ชั่น train_step ใน policy_value_net_pytorch.py ถ้ารุ่น pytorch ของคุณมากกว่า 0.5)
โมเดล (best_policy.model และ current_policy.model) จะถูกบันทึกทุกการอัปเดตไม่กี่ (ค่าเริ่มต้น 50)
หมายเหตุ: โมเดล 4 รุ่นที่ได้รับการฝึกฝนโดยใช้ Theano/Lasagne เพื่อใช้กับ Pytorch โปรดดูฉบับที่ 5
เคล็ดลับสำหรับการฝึกอบรม:
บทความของฉันอธิบายรายละเอียดบางอย่างเกี่ยวกับการดำเนินการเป็นภาษาจีน: https://zhuanlan.zhihu.com/p/32089487