alpha zero general Download - alpha zero general Quellcode herunterladen

alpha zero general

Python

1.0.0

Herunterladen

Alpha Zero General (jedes Spiel, jedes Framework!)

Eine vereinfachte, hoch flexible, kommentierte und (hoffentlich) leicht verständliche Implementierung von selbst spielbasiertem Verstärkungslernen basierend auf dem Alphago Zero Paper (Silver et al.). Es ist so konzipiert, dass es für jedes zwei Spieler-runden-basierte kontroverse Spiel und jeden Deep-Learning-Framework Ihrer Wahl leicht zu übernehmen ist. Für das Othello -Spiel in Pytorch und Keras wurde eine Beispielimplementierung vorgesehen. Hier finden Sie ein begleitendes Tutorial. Wir haben auch Implementierungen für viele andere Spiele wie Gobang und Tictactoe.

Um ein Spiel Ihrer Wahl zu verwenden, klassifizieren Sie die Klassen in Game.py und NeuralNet.py und implementieren Sie ihre Funktionen. Beispielimplementierungen für Othello finden Sie in othello/OthelloGame.py und othello/{pytorch,keras}/NNet.py .

Coach.py enthält die Kerntrainingsschleife und MCTS.py führt die Monte -Carlo -Baumsuche durch. Die Parameter für das Selbstspiel können in main.py angegeben werden. Zusätzliche neuronale Netzwerkparameter finden Sie in othello/{pytorch,keras}/NNet.py (CUDA -Flag, Chargegröße, Epochen, Lernrate usw.).

Mit dem Training eines Modells für Othello:

python main.py

Wählen Sie Ihr Framework und Ihr Spiel in main.py

Docker -Installation

Für eine einfache Umgebungs-Setup können wir Nvidia-Docker verwenden. Sobald Sie Nvidia-Docker eingerichtet haben, können wir einfach rennen:

 ./setup_env.sh

So einrichten ein (Standard: Pytorch) Jupyter Docker Container. Wir können jetzt ein neues Terminal öffnen und eingeben:

 docker exec -ti pytorch_notebook python main.py

Experimente

Wir haben ein Pytorch -Modell für 6x6 Othello (~ 80 Iterationen, 100 Episoden pro Iteration und 25 MCTs -Simulationen pro Kurve) ausgebildet. Dies dauerte ungefähr 3 Tage bei einem Nvidia Tesla K80. Das vorgezogene Modell (Pytorch) befindet sich in pretrained_models/othello/pytorch/ . Sie können ein Spiel gegen es mit pit.py spielen. Nachfolgend finden Sie die Leistung des Modells gegen einen zufälligen und eine gierige Grundlinie mit der Anzahl der Iterationen. Alt -Tag

Eine kurze Beschreibung unseres Algorithmus finden Sie hier.

Zitat

Wenn Sie diese Arbeit nützlich fanden, können Sie sie gerne als zitieren

 @misc{thakoor2016learning,
  title={Learning to play othello without human knowledge},
  author={Thakoor, Shantanu and Nair, Surag and Jhunjhunwala, Megha},
  year={2016},
  publisher={Stanford University, Final Project Report}
}

Beitragen

Während der aktuelle Code ziemlich funktional ist, können wir von den folgenden Beiträgen profitieren:

Spiellogikdateien für weitere Spiele, die den Spezifikationen in Game.py zusammen mit ihren neuronalen Netzwerken folgen
Neuronale Netze in anderen Frameworks
Vorausgebildete Modelle für verschiedene Spielkonfigurationen
Eine asynchrone Version des Code-Parallel-Prozesses für Selbsteinstellung, neuronales Netto-Training und Modellvergleich.
Asynchrone MCTs, wie im Papier beschrieben

Einige Erweiterungen wurden hier impliziert.

Mitwirkende und Credits

Shantanu Thakoor und Megha Jhunjhunwala halfen bei der Kerndesign und -implementierung.
Shantanu Kumar trug Tensorflow- und Keras -Modelle für Othello bei.
Evgeny Tyurin steuerte Regeln und ein ausgebildetes Modell für Tictactoe bei.
MBoss steuerte Regeln und ein Modell für Gobang bei.
Jernej Habjan hat das RTS -Spiel beigetragen.
Adam Lawson steuerte Regeln und ein ausgebildetes Modell für 3D -Tictactoe bei.
Carlos Aguayo steuerte Regeln und ein geschultes Modell für Punkte und Kisten zusammen mit einer JavaScript -Implementierung bei.
Robert Ronan steuerte Regeln für Santorini bei.
Plamen Totev hat Go Text Protocol Player für Othello beigetragen.

Hinweis: Die V1 -Versionen von Chainer und TensorFlow wurden entfernt, können jedoch vor dem Commit 2AD461C gefunden werden.

Expandieren

Zusätzliche Informationen