Lichess의 @playchesscoach : 시계 | 통계 | 도전 (1+0 또는 0+1까지 15+10)
Chesscoach는 자연 언어 논평을 할 수있는 신경망 기반 체스 엔진입니다. 그것은 약 3450 ELO의 등급으로 체스를 연기합니다. 이는 일반적으로 2850 ELO와 다른 많은 엔진에서 가장 강한 인간 플레이어조차도 이길 수 있지만 3550 ELO의 Stockfish 14와 같은 가장 강한 것을 잃을 것입니다.
모든 엔진과 마찬가지로 Chesscoach는 수백만 개의 체스 포지션을 검사하여 최상의 경기를 결정하는 데 의존합니다. Alphazero 또는 Leela Chess Zero (LC0)와 같은 크고 느린 신경 네트워크를 사용하여 훨씬 간단한 평가를 통해 속도를 목표로하는 클래식 엔진 또는 두 스타일의 더 강력한 하이브리드 인 최신 NNUE 엔진과 달리 각 위치를 평가합니다.
엔진의 핵심에있는 신경망은 피드백주기를 사용하여 거의 제로 지식 (체스 규칙)에서 시작하여 더 강해지면서 스스로를 이길 수있는 새로운 방법을 배웁니다. 더 강력한 신경망 평가를 통해 더 잘 검색 할 수 있었고 더 강력한 검색 결과를 통해 신경망 평가를보다 효과적으로 훈련시킬 수있었습니다.
Chesscoach는 또한 체스 지식을 추가 신경망에 공급하여 영어로 이동 및 위치에 대해 언급 할 수 있습니다. 그것은 통찰력이없고 종종 잘못되었지만 훈련 할 수있는 제한된 데이터에 대한 약속을 보여줍니다.
나는 머신 러닝을 좋아하는지 여부를 확인하고 예상했던 것보다 더 많은 것을 가져 가는지 확인하기 위해 2 ~ 3 개월 프로젝트로 Chesscoach를 개발하기 시작했습니다. 원래 계획은 세 가지 야심 찬 목표를 가지고있었습니다. 작은 알파 자로와 같은 엔진을 복제하고 교육 피드백주기에 자연 언어 해설을 추가하고 단일 GPU 워크 스테이션에서 어느 정도의 교육을 가능하게합니다.
1 년이 조금 넘는 개발 후, 나는 훈련 방법에 대한 진전을 거의 주장 할 수 없습니다. 그러나 나는 Chesscoach가 생산하는 논평에 만족하고, 모든 것을 고려하고, 엔진의 최종 강도에 놀랐습니다.
무료 클라우드 컴퓨팅 및 자유롭게 이용 가능한 논문, 토론 및 데이터를 포함하여 많은 공공 자원을 사용할 수있어서 운이 좋았습니다. 또한 중요한 설명, 토론 및 디버깅에 도움을 준 많은 사람들에게 매우 감사합니다.
Chesscoach의 핵심의 체스 엔진은 신경망의 구조, 교육 일정 및 검색 알고리즘의 구조에서 Alphazero (Silver et al., 2018) 또는 LC0 (Linscott & Pascutto, 2018)의 핵심과 매우 유사하지만, 더 큰 팀의 연구 인재의 폭과 깊이가 부족한 실용적, 공학적 접근 방식을 통해 실용적, 공학적 접근 방식으로. 그러나 다른 곳에서 유용 할 수있는 몇 가지 새로운 아이디어가 있기를 바랍니다.
자연 언어 논평 작품은 대규모 소셜 포럼 데이터 (Jhamtani, Gangal, Hovy, Neubig & Berg-Kirkpatrick, 2018)의 체스 게임에 대한 움직임 별 해설을 생성하는 학습과 비슷합니다. 신경 체스 엔진 (Zang, Yu & Wan, Wan, Zang, Ware and Wange)이 강화하는 자동 체스 해설자는 Chess의 Trainued Trainpus에 자극합니다. 더 단순한 아키텍처는 있지만.
Chesscoach는 다소 최소화되고 휴대용으로 설계되었습니다. Linux 및 Windows에서 실행되며 단일 GPU, Multi-GPU 및 Tensor Processing Units (TPU)를 지원합니다. 성능 지향 코드는 C ++ (10.5K 라인)이며 신경망 코드는 Python (3.7k 라인)으로 텐서 플로우 2에 의존합니다. 스톡 피쉬 코드는 위치 관리, 이동 생성 및 엔드 게임 테이블베이스 프로브에 사용되지만 검색 또는 평가에는 사용되지 않습니다. 자체 플레이 교육 데이터는 Alphazero 일정 4,400 만 게임과 각각 4,096 개의 위치의 70 만 개 훈련 배치에 따라 Chesscoach 프로젝트 내에서 완전히 생성되었습니다.
Alphazero 이외의 일부 아이디어는 Katago (Wu, 2020) 및 LC0과 같은 문학 및 프로젝트에 존재하는 일부 아이디어가 통합되었습니다 (종종 새로운 것을 시도하고 있다고 생각했지만 LC0의 스마트 한 사람들이 거의 모든 것을 시도한 것으로 나타났습니다). 여기에는 Mate Proving, EndGame TableBase 프로브, 최종 게임 미니 맥스, 확률 론적 중량 평균화 (SWA), 기하 급수적으로 가중 이동 평균 (EWMA), 다양한 탐사 인센티브, 예측 캐싱, 보조 훈련 목표 및 지식 증류가 포함됩니다.
나는 몇 가지 아이디어가 새로운 것이라고 생각합니다. 첫 번째는 전술 트랩을 피하고 선형 탐사 및 선택적 역전을 통해 간단한 후회를 최소화하는 검색 방법입니다. 두 번째는 위치에 대한 자연 언어 논평을위한 간단한 신경 구조이며, 핵 샘플링 (Top-P)의 조정 된 적용과 관련하여 정당성에 중점을 둔 계약-코벳 샘플링에 중점을 둡니다.
결과는 체스를 재생하고, 신경망을 훈련시키고, 매개 변수를 최적화하고, 테스트 강도, 프로세스 교육 데이터, 조회수 및 디버그 교육 데이터를 구성하고, 교육 데이터를 구성하고, 단위 테스트 및 조정 클러스터를 구성하는 일련의 도구입니다. 프로젝트를 마무리하기 위해 봇은 https://lichess.org/@/playchesscoach에서 도전자 및 기타 봇과의 게임을 플레이하고 관중들에게 논평을 제공합니다.
새로운 스타일의 V3-8 클라우드 TPU VM :
gui 명령을 입력하여 엔진 검색을 실시간으로 분석 할 수 있습니다.일부 주요 파일은 대부분의 도구를 구동하고 C ++ 및 Python 코드에서 읽는 config.toml을 포함하여 루트에 있습니다. Meson.build는 Linux 빌드를 정의하고 CPP/Chesscoach.sln 및 CPP/**/*. VCXPROJ Windows 빌드를 정의합니다. Setup.sh/.cmd 및 build.sh/.cmd 스크립트는 추가 단계가 필요할 수 있지만 설정 및 빌드를 자동화합니다. 루트의 Dockerfiles 각 클러스터 작업자 역할에 대한 이미지를 정의하고 Docker-*. SH 스크립트는 이러한 이미지를 구축하고 업로드하는 데 도움이됩니다.
클러스터 디렉토리에서 .sh/.yaml 파일은 이전 스타일의 TPU에서 Kubernetes 클러스터를 관리하는 반면 Py/Alpha.py는 새로운 스타일 클라우드 TPU VM의 클러스터를 관리합니다.
CPP 디렉토리에는 CPP/ChessCoach에 C ++ 코드가 포함되어 있습니다. Chesscoach C ++ 코드는 주로 성능 지향적입니다. 제 3 자 라이브러리에는 CPP/CRC32C, CPP/HUNSPELL, CPP/NUMPY, CPP/Protobuf-3.13.0, CPP/Stockfish, CPP/TCLAP, CPP/TOML11 및 CPP/ZLIB가 포함됩니다. 타사 데이터에는 CPP/사전 및 CPP/강도 테스트가 포함됩니다. 추가 타사 C ++ 라이브러리는 APT (Advanced Package Tool)를 사용하여 설치하고 Linux의 Meson 빌드 시스템에서 발견하고 Windows의 Nuget을 사용하여 설치하고 발견했습니다. CPP/Protobuf 라이브러리는 Protoc 도구 및 CPP/Protobuf/Chesscoach.proto를 사용하여 코드 생성됩니다.
PY 디렉토리에는 C ++의 Network.py를 통해 액세스 된 기본 Python 코드와 일부 독립형 스크립트 도구가 포함되어 있습니다. Chesscoach Python 코드는 주로 신경망 및 클라우드 스토리지와 관련이 있습니다. 추가 타사 파이썬 라이브러리는 PIP를 사용하여 설치됩니다.
JS 디렉토리에는 Chesscoachgui 및 Chesscoachuci에 사용되는 디버그 GUI가 포함되어 있으며 ChessboardJS에 의존합니다.
도구 디렉토리에는 토너먼트를 실행하고 참가자의 ELO 등급을 계산하기위한 Cutechess-Cli 및 Bayeselo와 상대방 역할을하는 Stockfish 13 엔진 바이너리가 포함되어 있습니다.
스크립트 디렉토리에는 다양한 상황 스크립트와 편의성이 포함되어 있습니다.
DOCS 디렉토리에는 문서 및 지원 자산이 포함되어 있습니다.
설치 후 Chesscoach는 Linux에서/usr/local/share/chesscoach에서 정적 데이터를 찾고 Windows의 바이너리와 함께 찾습니다. 동적 데이터는 $ {xdg_data_home}/chesscoach에서 또는 Linux의 ~/.local/share/chesscoach에서 실패하고 Windows의 LocalAppData %/chesscoach에서 실패합니다. 동적 데이터는 Google Cloud Storage에 위치 할 수도 있습니다. 예를 들어, gs : // chesscoach-eu/chesscoach.
Google Cloud에서 실행되면 GPU 설정을 단순화하여 CUDA 11과 함께 사전 구축 된 딥 러닝 디스크 이미지를 사용 할 수 있습니다.
./setup.sh 실행하십시오 (소스에서 protobuf를 구축하는 데 30 분이 걸릴 수 있습니다).pip3 install -r requirements-all.txt 실행합니다.sudo ./build.sh release install 실행하십시오../setup.sh 실행하십시오 (소스에서 protobuf를 구축하는 데 30 분이 걸릴 수 있습니다).pip3 install -r requirements-all.txt 실행합니다.sudo ./build.sh release install 실행하십시오../setup.sh 실행하십시오 (소스에서 protobuf를 구축하는 데 30 분이 걸릴 수 있습니다).pip3 install tf-models-official==2.5.0 (이로 인해 사전 설치된 TF-Nightly를 클로브 링).pip3 uninstall tensorflow tf-slim tf-nightly .--force-reinstall 과 함께 개인 TF-Nightly 패키지를 설치하십시오.sudo ./build.sh release install 실행하십시오.conda activate chesscoach 시키는 것이지만 가상 환경을 사용하지 않을 때는 실패해도 괜찮습니다.setup.cmd (이것은 activate_virtual_env.cmd를 실행 한 후 chesscoach_pythonhome을 설정합니다).build.cmd .Chesscoach는 $ {xdg_data_home}/chesscoach에 설치된 데이터에 의존하거나 Linux의 ~/.local/share/chesscoach에서 실패하고 Windows의 %LocalAppData %/chesscoach에서 실패합니다.
신경망 가중치를 설치하십시오. 이를 위해서는 372 MIB 다운로드와 406 MIB 디스크 공간이 필요합니다.
scripts/download_install_data.sh .scripts/download_install_data.cmd .선택적으로 Syzygy endgame 테이블베이스를 설치하십시오. 3-4-5 조각의 파일은 약 1 개의 gib를 사용하고 3-4-5 + 6 조각의 파일은 약 150 gib가 필요합니다. 설치 프로세스는 다소 기술적입니다.
클라우드 스토리지 모드에서 Syzygy 테이블은 출시시 로컬 스토리지로 자동 복제됩니다.
스크립트 스크립트/ramdisk_syzygy6.sh는 메모리가 높지만 디스크 공간이 낮을 때 3-4-5 + 6 피스 테이블을 호스팅하기 위해 최신 스타일 클라우드 TPU VM과 같은 기계에서 RAM 디스크를 설정합니다. 디스크를 사용하는 경우 검색 속도를 유지하기 위해 이러한 테이블을 SSD에 배치하는 것이 가장 좋습니다. 스크립트 스크립트/ramdisk_syzygy6.sh는 경로를 사용합니다.
export PROJECT_ID=<your Google Cloud project ID> 실행하십시오.Alpha.py를 사용하는 경우 (이 부분은 특히 지저분합니다) :
cluster/cluster-prep-creds.sh 실행하려면 서비스 계정과 해당 key.json 파일을 만듭니다.gsutil cp 사용하여 key_path 로 복사하십시오.기술 설명의 분산 교육 및 자체 플레이 섹션에는 이전 스타일 및 새로운 스타일 클러스터 관리에 대한 자세한 정보가 있습니다.
대부분의 ChessCoach 프로그램은 빌드 및 설치된 config.toml에 따라 다릅니다. 불공평 한 예측 일정에서 스레드 기아를 피하기 위해 Config.toml 또는 런타임시 UCI 옵션을 통해 Chesscoachuci를 실행할 때 Search_Threads 매개 변수를 설정하는 것이 특히 중요합니다.
Chesscoachuci Binary는 다양한 체스 Guis에서 UCI 엔진으로로드 될 수 있습니다.
그러나 파이썬에 가상 환경을 사용할 때는 다음 중 하나가 필요할 수 있습니다.
Chesscoachuci는 UCI 프로토콜 외에도 맞춤형 명령을 제공합니다.
comment 현재 위치와 마지막 움직임에 대한 자연 언어 해설을 생성합니다. position startpos moves … 로 전체 이동 기록을 제공하는 것이 가장 좋습니다.gui 검색을 시작할 때 디버그 GUI를 시작하도록 플래그합니다 (높은 수준의 설명에 그림 9에 표시됨).~ puct [moves …] [csv] DEBUG GUI 데이터를 텍스트 형식으로 표시합니다.~ fen Forsyth -Edwards 표기법 (FEN)에서 현재 위치를 표시합니다.자체 플레이 및 훈련은 데이터 문서의 자체 플레이 및 교육 프로세스를 참조하십시오.
프로그램에 나열된 다른 유틸리티의 경우 Config.toml에서 구성 안내를 찾으십시오. 많은 유틸리티는 --help 논쟁을 지원합니다. 스크립트 디렉토리의 스크립트 내용에 예제를 표시 할 수 있습니다. Python에 가상 환경을 사용하는 경우 유틸리티를 실행하기 전에 활성화해야 할 수도 있지만 일부는 Python에 의존하지 않습니다.
build/gcc/debug/ChessCoachTest 또는 build/gcc/release/ChessCoachTest 실행하십시오.
activate_virtual_env.cmd 실행 한 다음 cpp/x64/Debug/ChessCoachTest.exe 또는 cpp/x64/Release/ChessCoachTest.exe 실행하십시오.
Visual Studio 내에서 ChessCoachtest 프로젝트를 실행/디버깅하거나 Visual Studio 내에서 테스트 탐색기 인터페이스를 사용할 수도 있습니다.
Google의 TPU Research Cloud (TRC) 프로그램은이 프로젝트를 가능하게하는 컴퓨팅 리소스에 매우 관대 해 왔으며, 특히 Jonathan Caton에게 일이 일어나도록 해주셔서 감사합니다.
클라우드 TPU VM의 사용에 대한 Google의 클라우드 TPU 팀, 특히 새로운 기술의 알파 전체에서 엔지니어링 지원을 위해 Michael Banfield를 사용하는 것에 대해 매우 감사합니다.
체스 튜닝 도구와 베이 에스 스크립트 구현에 대한 Karlson Pfannschmidt (Paderborn University)와 Bayesian 최적화에 대한 조언은 Chesscoach 엔진 강화에 귀중한 감사합니다.
Alphazero 용지에 독립적 인 용량, 중요한 설명을 제공 한 Matthew Lai (DeepMind)에게 매우 감사합니다.
Chesscoach에서 자연 언어 해설 훈련을 가능하게하기 위해 Scrapingbee의 연구 학점을 제공 한 Pierre de Wulf 덕분에 확장됩니다.
프로젝트가 시작될 때 귀중한 아이디어와 토론에 대해 Ted Li에게 감사합니다.
다이어그램 프로토 타이핑에 도움을 주신 Freya Wilcox에게 감사드립니다.
편집, 교정 및 지원에 대한 Gary Butner와 Lynelle Rafton에게 특별한 감사를드립니다.
Chesscoach는 GPLV3 이상 라이센스에 따라 릴리스됩니다.
Chris Butner, [email protected]