Implementasi Muzero yang dikomentari dan didokumentasikan berdasarkan kertas Google DeepMind (Schrittwieser et al., Nov 2019) dan pseudocode terkait. Ini dirancang agar mudah beradaptasi untuk setiap game atau lingkungan belajar penguatan (seperti gym). Anda hanya perlu menambahkan file game dengan hyperparameters dan kelas game. Silakan merujuk ke dokumentasi dan contohnya. Implementasi ini terutama untuk tujuan pendidikan.
Video Penjelasan Muzero
Muzero adalah algoritma canggih RL untuk permainan papan (catur, go, ...) dan atari game. Ini adalah penerus Alphazero tetapi tanpa sepengetahuan lingkungan yang mendasari dinamika. Muzero mempelajari model lingkungan dan menggunakan representasi internal yang hanya berisi informasi yang berguna untuk memprediksi hadiah, nilai, kebijakan, dan transisi. Muzero juga dekat dengan jaringan prediksi nilai. Lihat cara kerjanya.
Berikut adalah daftar fitur yang bisa menarik untuk ditambahkan tetapi yang tidak ada di koran Muzero. Kami terbuka untuk kontribusi dan ide -ide lainnya.
Semua pertunjukan dilacak dan ditampilkan secara real time di Tensorboard:

Menguji Lunar Lander:

Tes dilakukan pada Ubuntu dengan 16 GB RAM / Intel I7 / GTX 1050Ti Max-Q. Kami memastikan untuk mendapatkan perkembangan dan tingkat yang memastikan bahwa ia telah dipelajari. Tetapi kami tidak secara sistematis mencapai tingkat manusia. Untuk lingkungan tertentu, kami melihat regresi setelah waktu tertentu. Konfigurasi yang diusulkan tentu tidak optimal dan kami tidak fokus sekarang pada optimalisasi hiperparameter. Bantuan apa pun diterima.

Ringkasan Jaringan:

git clone https://github.com/werner-duvaud/muzero-general.git
cd muzero-general
pip install -r requirements.lockpython muzero.pyUntuk memvisualisasikan hasil pelatihan, jalankan di terminal baru:
tensorboard --logdir ./results Anda dapat mengadaptasi konfigurasi setiap game dengan mengedit kelas MuZeroConfig dari file masing -masing di folder game.
Silakan gunakan Bibtex ini jika Anda ingin mengutip repositori ini (cabang master) di publikasi Anda:
@misc{muzero-general,
author = {Werner Duvaud, Aurèle Hainaut},
title = {MuZero General: Open Reimplementation of MuZero},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = { u rl{https://github.com/werner-duvaud/muzero-general}},
}