AlphaZero_Gomoku
1.0.0
這是用於從純自我玩訓練中玩簡單的棋盤遊戲Gomoku(也稱為Gobang或五個)的Alphazero算法的實現。 Gooku遊戲比Go或國際象棋要簡單得多,因此我們可以專注於Alphazero的訓練方案,並在幾個小時內在單個PC上獲得相當不錯的AI模型。
參考:
要使用訓練有素的AI模型,只需要:
要從從頭開始訓練AI模型,請進一步需要:
PS :如果您的Theano的版本> 0.7,請遵循此問題安裝Lasagne,
否則,將pip強制降級至0.7 pip install --upgrade theano==0.7.0
如果您想使用其他DL框架訓練模型,則只需重寫polition_value_net.py即可。
要使用提供的模型,請從目錄中運行以下腳本:
python human_play.py
您可以修改human_play.py嘗試不同的模型或純MCT。
與Theano和Lasagne從頭開始訓練AI模型,直接運行:
python train.py
使用Pytorch或TensorFlow,首先修改文件train.py,即
from policy_value_net import PolicyValueNet # Theano and Lasagne
並取消排隊
# from policy_value_net_pytorch import PolicyValueNet # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow
然後執行: python train.py (要在pytorch中使用gpu,set use_gpu=True ,然後使用return loss.item(), entropy.item() ,如果您的pytorch版本大於0.5)
每個更新都將保存模型(best_policy.model和current_policy.model)(默認50)。
注意:使用Theano/Lasagne培訓了4種型號,將其與Pytorch一起使用,請參閱第5期。
培訓技巧:
我的文章描述了有關中文實施的一些詳細信息:https://zhuanlan.zhihu.com/p/32089487