AlphaZero_Gomoku
1.0.0
这是用于从纯自我玩训练中玩简单的棋盘游戏Gomoku(也称为Gobang或五个)的Alphazero算法的实现。 Gooku游戏比Go或国际象棋要简单得多,因此我们可以专注于Alphazero的训练方案,并在几个小时内在单个PC上获得相当不错的AI模型。
参考:
要使用训练有素的AI模型,只需要:
要从从头开始训练AI模型,请进一步需要:
PS :如果您的Theano的版本> 0.7,请遵循此问题安装Lasagne,
否则,将pip强制降级至0.7 pip install --upgrade theano==0.7.0
如果您想使用其他DL框架训练模型,则只需重写polition_value_net.py即可。
要使用提供的模型,请从目录中运行以下脚本:
python human_play.py
您可以修改human_play.py尝试不同的模型或纯MCT。
与Theano和Lasagne从头开始训练AI模型,直接运行:
python train.py
使用Pytorch或TensorFlow,首先修改文件train.py,即
from policy_value_net import PolicyValueNet # Theano and Lasagne
并取消排队
# from policy_value_net_pytorch import PolicyValueNet # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow
然后执行: python train.py (要在pytorch中使用gpu,set use_gpu=True ,然后使用return loss.item(), entropy.item() ,如果您的pytorch版本大于0.5)
每个更新都将保存模型(best_policy.model和current_policy.model)(默认50)。
注意:使用Theano/Lasagne培训了4种型号,将其与Pytorch一起使用,请参阅第5期。
培训技巧:
我的文章描述了有关中文实施的一些详细信息:https://zhuanlan.zhihu.com/p/32089487