การใช้งานง่ายมีความยืดหยุ่นสูงแสดงความคิดเห็นและ (หวังว่า) ง่ายต่อการเข้าใจการใช้การเรียนรู้การเสริมแรงตามการเล่นด้วยตนเองโดยใช้กระดาษอัลฟาโกเป็นศูนย์ (Silver et al) มันถูกออกแบบมาเพื่อให้ง่ายต่อการใช้สำหรับเกมคู่ปรับแบบเทิร์นเทิร์นแบบผู้เล่นสองคนและกรอบการเรียนรู้เชิงลึกที่คุณเลือก มีการใช้งานตัวอย่างสำหรับเกม Othello ใน Pytorch และ Keras บทช่วยสอนที่มาพร้อมกันสามารถพบได้ที่นี่ นอกจากนี้เรายังมีการใช้งานสำหรับเกมอื่น ๆ อีกมากมายเช่น Gobang และ Tictactoe
หากต้องการใช้เกมที่คุณเลือกให้คลาสย่อยคลาสใน Game.py และ NeuralNet.py และใช้งานฟังก์ชั่นของพวกเขา ตัวอย่างการใช้งานสำหรับ Othello สามารถพบได้ใน othello/OthelloGame.py และ othello/{pytorch,keras}/NNet.py
Coach.py มีห่วงการฝึกอบรมหลักและ MCTS.py ทำการค้นหาต้นไม้ Monte Carlo พารามิเตอร์สำหรับการเล่นด้วยตนเองสามารถระบุได้ใน main.py พารามิเตอร์เครือข่ายประสาทเพิ่มเติมอยู่ใน othello/{pytorch,keras}/NNet.py (ธง Cuda, ขนาดแบทช์, ยุค, อัตราการเรียนรู้ ฯลฯ )
เพื่อเริ่มการฝึกอบรมแบบจำลองสำหรับ Othello:
python main.py เลือกเฟรมเวิร์กและเกมของคุณใน main.py
สำหรับการตั้งค่าสภาพแวดล้อมที่ง่ายเราสามารถใช้ Nvidia-Docker เมื่อคุณตั้งค่า Nvidia-Docker แล้วเราก็สามารถเรียกใช้:
./setup_env.sh
ในการตั้งค่า (ค่าเริ่มต้น: pytorch) คอนเทนเนอร์ Jupyter Docker ตอนนี้เราสามารถเปิดเทอร์มินัลใหม่และป้อน:
docker exec -ti pytorch_notebook python main.py
เราฝึกอบรมแบบจำลอง Pytorch สำหรับ 6x6 Othello (~ 80 ซ้ำ, 100 ตอนต่อการทำซ้ำและการจำลอง 25 MCTs ต่อเทิร์น) ใช้เวลาประมาณ 3 วันใน Nvidia Tesla K80 แบบจำลอง pretrained (pytorch) สามารถพบได้ใน pretrained_models/othello/pytorch/ คุณสามารถเล่นเกมกับมันโดยใช้ pit.py ด้านล่างคือประสิทธิภาพของโมเดลกับการสุ่มและพื้นฐานโลภด้วยจำนวนการวนซ้ำ 
คำอธิบายที่กระชับของอัลกอริทึมของเราสามารถพบได้ที่นี่
หากคุณพบว่างานนี้มีประโยชน์อย่าลังเลที่จะอ้างอิงเป็น
@misc{thakoor2016learning,
title={Learning to play othello without human knowledge},
author={Thakoor, Shantanu and Nair, Surag and Jhunjhunwala, Megha},
year={2016},
publisher={Stanford University, Final Project Report}
}
ในขณะที่รหัสปัจจุบันใช้งานได้ค่อนข้างดี แต่เราจะได้รับประโยชน์จากการมีส่วนร่วมดังต่อไปนี้:
Game.py พร้อมกับเครือข่ายประสาทของพวกเขาส่วนขยายบางส่วนได้รับการบอกกล่าวที่นี่
หมายเหตุ: รุ่น Chainer และ Tensorflow V1 ถูกลบออก แต่สามารถพบได้ก่อนที่จะกระทำ 2AD461C