Il s'agit d'une implémentation de l'algorithme Alphazero pour jouer au jeu de société simple Gomoku (également appelé Gobang ou cinq d'affilée) à partir de la formation d'auto-play pure. Le jeu Gomoku est beaucoup plus simple que Go ou les échecs, afin que nous puissions nous concentrer sur le schéma de formation d'Alphazer et obtenir un assez bon modèle d'IA sur un seul PC en quelques heures.
Références:
Pour jouer avec les modèles d'IA formés, seulement besoin:
Pour entraîner le modèle d'IA à partir de zéro, le besoin supplémentaire: soit:
PS : Si la version de votre Theano> 0,7, veuillez suivre ce problème pour installer des lasagnes,
Sinon, forcez PIP à rétrograder Theano à 0,7 pip install --upgrade theano==0.7.0
Si vous souhaitez former le modèle à l'aide d'autres frameworks DL, vous n'avez qu'à réécrire des politiques_value_net.py.
Pour jouer avec des modèles fournis, exécutez le script suivant à partir du répertoire:
python human_play.py
Vous pouvez modifier Human_Play.py pour essayer différents modèles fournis ou les MCS purs.
Pour entraîner le modèle AI à partir de zéro, avec Theano et Lasagne, exécutez directement:
python train.py
Avec Pytorch ou TensorFlow, modifiez d'abord le fichier Train.py, c'est-à-dire, commentez la ligne
from policy_value_net import PolicyValueNet # Theano and Lasagne
et non-état la ligne
# from policy_value_net_pytorch import PolicyValueNet # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow
puis exécuter: python train.py (pour utiliser GPU dans pytorch, définissez use_gpu=True and use return loss.item(), entropy.item() dans la fonction Train_step dans politique_value_net_pytorch.py si votre version pytorch est supérieure à 0,5)
Les modèles (best_policy.model et current_policy.model) seront enregistrés toutes les mises à jour (par défaut 50).
Remarque: Les 4 modèles fournis ont été formés à l'aide de Theano / Lasagne, pour les utiliser avec Pytorch, veuillez vous référer au problème 5.
Conseils pour la formation:
Mon article décrivant quelques détails sur la mise en œuvre en chinois: https://zhuanlan.zhihu.com/p/32089487