ดาวน์โหลด alpha zero general - alpha zero general Source Source Download

alpha zero general

หลาม

1.0.0

ดาวน์โหลด

Alpha Zero General (เกมใด ๆ กรอบใด ๆ !)

การใช้งานง่ายมีความยืดหยุ่นสูงแสดงความคิดเห็นและ (หวังว่า) ง่ายต่อการเข้าใจการใช้การเรียนรู้การเสริมแรงตามการเล่นด้วยตนเองโดยใช้กระดาษอัลฟาโกเป็นศูนย์ (Silver et al) มันถูกออกแบบมาเพื่อให้ง่ายต่อการใช้สำหรับเกมคู่ปรับแบบเทิร์นเทิร์นแบบผู้เล่นสองคนและกรอบการเรียนรู้เชิงลึกที่คุณเลือก มีการใช้งานตัวอย่างสำหรับเกม Othello ใน Pytorch และ Keras บทช่วยสอนที่มาพร้อมกันสามารถพบได้ที่นี่ นอกจากนี้เรายังมีการใช้งานสำหรับเกมอื่น ๆ อีกมากมายเช่น Gobang และ Tictactoe

หากต้องการใช้เกมที่คุณเลือกให้คลาสย่อยคลาสใน Game.py และ NeuralNet.py และใช้งานฟังก์ชั่นของพวกเขา ตัวอย่างการใช้งานสำหรับ Othello สามารถพบได้ใน othello/OthelloGame.py และ othello/{pytorch,keras}/NNet.py

Coach.py มีห่วงการฝึกอบรมหลักและ MCTS.py ทำการค้นหาต้นไม้ Monte Carlo พารามิเตอร์สำหรับการเล่นด้วยตนเองสามารถระบุได้ใน main.py พารามิเตอร์เครือข่ายประสาทเพิ่มเติมอยู่ใน othello/{pytorch,keras}/NNet.py (ธง Cuda, ขนาดแบทช์, ยุค, อัตราการเรียนรู้ ฯลฯ )

เพื่อเริ่มการฝึกอบรมแบบจำลองสำหรับ Othello:

python main.py

เลือกเฟรมเวิร์กและเกมของคุณใน main.py

การติดตั้ง Docker

สำหรับการตั้งค่าสภาพแวดล้อมที่ง่ายเราสามารถใช้ Nvidia-Docker เมื่อคุณตั้งค่า Nvidia-Docker แล้วเราก็สามารถเรียกใช้:

 ./setup_env.sh

ในการตั้งค่า (ค่าเริ่มต้น: pytorch) คอนเทนเนอร์ Jupyter Docker ตอนนี้เราสามารถเปิดเทอร์มินัลใหม่และป้อน:

 docker exec -ti pytorch_notebook python main.py

การทดลอง

เราฝึกอบรมแบบจำลอง Pytorch สำหรับ 6x6 Othello (~ 80 ซ้ำ, 100 ตอนต่อการทำซ้ำและการจำลอง 25 MCTs ต่อเทิร์น) ใช้เวลาประมาณ 3 วันใน Nvidia Tesla K80 แบบจำลอง pretrained (pytorch) สามารถพบได้ใน pretrained_models/othello/pytorch/ คุณสามารถเล่นเกมกับมันโดยใช้ pit.py ด้านล่างคือประสิทธิภาพของโมเดลกับการสุ่มและพื้นฐานโลภด้วยจำนวนการวนซ้ำ แท็ก alt

คำอธิบายที่กระชับของอัลกอริทึมของเราสามารถพบได้ที่นี่

การอ้างอิง

หากคุณพบว่างานนี้มีประโยชน์อย่าลังเลที่จะอ้างอิงเป็น

 @misc{thakoor2016learning,
  title={Learning to play othello without human knowledge},
  author={Thakoor, Shantanu and Nair, Surag and Jhunjhunwala, Megha},
  year={2016},
  publisher={Stanford University, Final Project Report}
}

การบริจาค

ในขณะที่รหัสปัจจุบันใช้งานได้ค่อนข้างดี แต่เราจะได้รับประโยชน์จากการมีส่วนร่วมดังต่อไปนี้:

ไฟล์ลอจิกเกมสำหรับเกมเพิ่มเติมที่เป็นไปตามข้อกำหนดใน Game.py พร้อมกับเครือข่ายประสาทของพวกเขา
เครือข่ายประสาทในกรอบอื่น ๆ
รุ่นที่ผ่านการฝึกอบรมมาล่วงหน้าสำหรับการกำหนดค่าเกมที่แตกต่างกัน
กระบวนการแบบอะซิงโครนัสของกระบวนการรหัสขนานสำหรับการเล่นด้วยตนเองการฝึกอบรมระบบประสาทและการเปรียบเทียบแบบจำลอง
Asynchronous MCTs ตามที่อธิบายไว้ในกระดาษ

ส่วนขยายบางส่วนได้รับการบอกกล่าวที่นี่

ผู้มีส่วนร่วมและเครดิต

Shantanu Thakoor และ Megha Jhunjhunwala ช่วยในการออกแบบหลักและการใช้งาน
Shantanu Kumar สนับสนุน Tensorflow และ Keras รุ่นสำหรับ Othello
Evgeny Tyurin สนับสนุนกฎและรูปแบบที่ผ่านการฝึกอบรมสำหรับ Tictactoe
MBOSS มีส่วนร่วมกฎและแบบจำลองสำหรับ Gobang
Jernej Habjan สนับสนุนเกม RTS
อดัมลอว์สันมีส่วนร่วมกฎและรูปแบบที่ผ่านการฝึกอบรมสำหรับ 3D Tictactoe
Carlos Aguayo สนับสนุนกฎและรูปแบบที่ผ่านการฝึกอบรมสำหรับจุดและกล่องพร้อมกับการใช้งาน JavaScript
Robert Ronan สนับสนุนกฎสำหรับ Santorini
Plamen Totev สนับสนุนผู้เล่น Protocol Text สำหรับ Othello

หมายเหตุ: รุ่น Chainer และ Tensorflow V1 ถูกลบออก แต่สามารถพบได้ก่อนที่จะกระทำ 2AD461C

ขยาย

ข้อมูลเพิ่มเติม