Descargar AlphaZero_Gomoku - Descargar el código fuente AlphaZero

AlphaZero_Gomoku

Pitón

1.0.0

Descargar

Alphazero-gomoku

Esta es una implementación del algoritmo de Alphazero para jugar el simple juego de mesa Gomoku (también llamado Gobang o cinco seguidos) del entrenamiento puro de autoplaz. El juego Gomoku es mucho más simple que Go o Chess, para que podamos centrarnos en el esquema de entrenamiento de Alphazero y obtener un modelo de IA bastante bueno en una sola PC en unas pocas horas.

Referencias:

Alphazero: Dominar el ajedrez y el shogi por autocomplacidad con un algoritmo de aprendizaje de refuerzo general
Alphago Zero: Dominar el juego de Go sin conocimiento humano

Actualización 2018.2.24: ¡Admite capacitación con TensorFlow!

Actualización 2018.1.17: ¡Admite capacitación con Pytorch!

Juegos de ejemplo entre modelos entrenados

Cada movimiento con 400 MCTS Playouts:

Requisitos

Para jugar con los modelos de IA entrenados, solo necesita:

Python> = 2.7
Numpy> = 1.11

Para entrenar el modelo de IA desde cero, la necesidad adicional, tampoco:

Theano> = 0.7 y lasaña> = 0.1
o
Pytorch> = 0.2.0
o
Flujo tensor

PD : Si su versión de theo> 0.7, siga este problema para instalar lasaña,
De lo contrario, obliga a Pip a degradar a theano a 0.7 pip install --upgrade theano==0.7.0

Si desea capacitar al modelo con otros marcos DL, solo necesita reescribir Policy_Value_net.py.

Empezando

Para jugar con los modelos proporcionados, ejecute el siguiente script desde el directorio:

 python human_play.py

Puede modificar humano_play.py para probar diferentes modelos proporcionados o los MCT puros.

Para entrenar el modelo de IA desde cero, con Theano y Lasaña, corren directamente:

 python train.py

Con pytorch o tensorflow, primero modifique el archivo trin.py, es decir, comente la línea

 from policy_value_net import PolicyValueNet  # Theano and Lasagne

e incommentar la línea

 # from policy_value_net_pytorch import PolicyValueNet  # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow

y luego ejecute: python train.py (para usar GPU en Pytorch, establezca use_gpu=True y use return loss.item(), entropy.item() en function Train_step en Policy_value_net_pytorch.py si su versión de PyTorch es mayor que 0.5)

Los modelos (best_policy.model y current_policy.model) se guardarán cada algunas actualizaciones (predeterminadas 50).

Nota: Los 4 modelos proporcionados fueron entrenados con theano/lasaña, para usarlos con Pytorch, consulte el número 5.

Consejos para el entrenamiento:

Es bueno comenzar con una placa 6 * 6 y 4 seguidas. Para este caso, podemos obtener un modelo razonablemente bueno dentro de los 500 ~ 1000 juegos de autocompasión en aproximadamente 2 horas.
Para el caso del tablero 8 * 8 y 5 consecutivos, puede necesitar 2000 ~ 3000 juegos de autocompasión para obtener un buen modelo, y puede tomar aproximadamente 2 días en una sola PC.