AlphaZero_Gomoku 다운로드 AlphaZero_Gomoku 소스 코드 다운로드

AlphaZero_Gomoku

파이썬

1.0.0

다운로드

알파 자로-고모 쿠

이것은 순수한 자체 플레이 훈련에서 간단한 보드 게임 Gomoku (Gobang 또는 Five in Own)를 연주하기위한 Alphazero 알고리즘의 구현입니다. Gomoku는 Go 또는 Chess보다 훨씬 간단하여 Alphazero의 훈련 체계에 집중하고 몇 시간 안에 단일 PC에서 꽤 좋은 AI 모델을 얻을 수 있습니다.

참조 :

Alphazero : 일반적인 강화 학습 알고리즘으로 자체 플레이로 체스와 쇼기 마스터
Alphago Zero : 인간의 지식없이 Go의 게임 마스터 링

업데이트 2018.2.24 : Tensorflow로 교육을 지원합니다!

업데이트 2018.1.17 : Pytorch와의 교육을 지원합니다!

훈련 된 모델 사이의 게임 예제

400 개의 MCT 플레이 아웃으로 이동 :

요구 사항

훈련 된 AI 모델을 사용하려면

파이썬> = 2.7
Numpy> = 1.11

AI 모델을 처음부터 훈련하려면 추가 요구 사항도 필요합니다.

theano> = 0.7 및 Lasagne> = 0.1
또는
Pytorch> = 0.2.0
또는
텐서 플로

추신 : Theano의 버전> 0.7 인 경우이 문제를 따라 Lasagne을 설치하십시오.
그렇지 않으면, Pip이 Theano를 0.7 pip install --upgrade theano==0.7.0

다른 DL 프레임 워크를 사용하여 모델을 교육하려면 policy_value_net.py를 다시 작성하면됩니다.

시작하기

제공된 모델을 사용하려면 디렉토리에서 다음 스크립트를 실행하십시오.

 python human_play.py

human_play.py를 수정하여 다른 제공된 모델 또는 순수한 MCT를 시도 할 수 있습니다.

Theano와 Lasagne과 함께 AI 모델을 처음부터 훈련시키기 위해 직접 실행하십시오.

 python train.py

Pytorch 또는 Tensorflow를 사용하면 먼저 파일 Train.py를 수정하십시오.

 from policy_value_net import PolicyValueNet  # Theano and Lasagne

그리고 줄을 타협합니다

 # from policy_value_net_pytorch import PolicyValueNet  # Pytorch
or
# from policy_value_net_tensorflow import PolicyValueNet # Tensorflow

그리고 python train.py (pytorch에서 gpu를 사용하려면 pytorch 버전이 0.5보다 큰 경우 policy_value_net_pytorch.py의 function a train_step에서 use_gpu=True return loss.item(), entropy.item() 사용하십시오.

모델 (best_policy.model 및 current_policy.model)은 몇 가지 업데이트마다 저장됩니다 (기본 50).

참고 : 제공된 4 가지 모델은 Theano/Lasagne을 사용하여 교육을 받았으며 Pytorch와 함께 사용하여 5 호를 참조하십시오.

훈련을위한 팁 :

6 * 6 보드, 4 연속으로 시작하는 것이 좋습니다. 이 경우 약 2 시간 내에 500 ~ 1000 셀프 플레이 게임 내에서 합리적으로 좋은 모델을 얻을 수 있습니다.
8 * 8 보드와 5 회 연속 5 개의 경우 좋은 모델을 얻으려면 2000 ~ 3000 셀프 플레이 게임이 필요할 수 있으며 단일 PC에서 약 2 일이 걸릴 수 있습니다.