Download AlphaZero_Gomoku - AlphaZero_Gomoku download de código fonte

AlphaZero_Gomoku

Pitão

1.0.0

Baixar

ALPHAZERO-GOMOKU

Esta é uma implementação do algoritmo Alphazero para jogar o jogo de tabuleiro simples Gomoku (também chamado Gobang ou cinco seguidas) do treinamento puro de auto-jogo. O jogo Gomoku é muito mais simples que ir ou xadrez, para que possamos nos concentrar no esquema de treinamento de Alphazero e obter um modelo de IA muito bom em um único PC em poucas horas.

Referências:

ALPHAZERO: dominar o xadrez e shogi por auto-jogo com um algoritmo de aprendizado de reforço geral
ALPHAGO ZERO: Dominando o jogo de Go sem conhecimento humano

ATUALIZAÇÃO 2018.2.24: Suporta o treinamento com o TensorFlow!

ATUALIZAÇÃO 2018.1.17: Apoia treinamento com Pytorch!

Exemplo de jogos entre modelos treinados

Cada movimento com jogadores de 400 MCTS:

Requisitos

Para brincar com os modelos de IA treinados, só preciso:

Python> = 2.7
Numpy> = 1.11

Para treinar o modelo de IA do zero, também precisa::

Theano> = 0,7 e lasanha> = 0,1
ou
Pytorch> = 0.2.0
ou
Tensorflow

PS : Se a versão do seu Theano> 0.7, siga esta edição para instalar o Lasagne,
Caso contrário, force Pip a rebaixar o Theano para 0.7 pip install --upgrade theano==0.7.0

Se você deseja treinar o modelo usando outras estruturas DL, você só precisa reescrever policy_value_net.py.

Começando

Para brincar com os modelos fornecidos, execute o seguinte script do diretório:

 python human_play.py

Você pode modificar o Human_Play.py para experimentar diferentes modelos fornecidos ou os MCTs puros.

Para treinar o modelo de IA do zero, com Theano e lasanha, execute diretamente:

 python train.py

Com Pytorch ou TensorFlow, primeiro modifique o trem de arquivo.py, ou seja, comente a linha

 from policy_value_net import PolicyValueNet  # Theano and Lasagne

e descomamento da linha

 # from policy_value_net_pytorch import PolicyValueNet  # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow

e depois execute: python train.py (para usar a GPU em pytorch, defina use_gpu=True e use return loss.item(), entropy.item() na function Train_Step em Policy_Value_Net_Pytorch.py Se sua versão pytorch for maior que 0,5)

Os modelos (best_policy.model e current_policy.model) serão salvos a cada algumas atualizações (padrão 50).

NOTA: Os 4 modelos fornecidos foram treinados usando o Theano/Lasagne, para usá -los com Pytorch, consulte a edição 5.

Dicas para treinamento:

É bom começar com uma placa 6 * 6 e 4 seguidas. Para este caso, podemos obter um modelo razoavelmente bom em 500 ~ 1000 jogos de auto-reprodução em cerca de 2 horas.
Para o caso de 8 * 8 placas e 5 seguidas, pode precisar de 2000 ~ 3000 jogos de auto-jogo para obter um bom modelo, e pode levar cerca de 2 dias em um único PC.