muzero general Download - muzero general Source Code Download

muzero general

Python

1.0.0

Télécharger

Muzero General

Une implémentation commentée et documentée de Muzero sur la base du document Google Deepmind (Schrittwieser et al., Novembre 2019) et du pseudocode associé. Il est conçu pour être facilement adaptable pour chaque jeu ou environnements d'apprentissage de renforcement (comme le gymnase). Il vous suffit d'ajouter un fichier de jeu avec les hyperparamètres et la classe de jeu. Veuillez vous référer à la documentation et à l'exemple. Cette mise en œuvre est principalement à des fins éducatives.
Vidéo explicative de Muzero

Muzero est un algorithme de pointe pour les jeux de société (Chess, Go, ...) et les jeux Atari. C'est le successeur d'Alphazero mais sans aucune connaissance de l'environnement sous-jacent à la dynamique. Muzero apprend un modèle de l'environnement et utilise une représentation interne qui ne contient que les informations utiles pour prédire la récompense, la valeur, la politique et les transitions. Muzero est également proche des réseaux de prédiction de valeur. Voyez comment cela fonctionne.

Caractéristiques

Améliorations supplémentaires

Voici une liste de fonctionnalités qui pourraient être intéressantes à ajouter mais qui ne sont pas dans le papier de Muzero. Nous sommes ouverts aux contributions et à d'autres idées.

Démo

Toutes les performances sont suivies et affichées en temps réel dans Tensorboard:

Résumé de la formation de Cartpole

Test Lunar Lander:

Aperçu de la formation de Lunarlander

Jeux déjà mis en œuvre

Cartpole (testé avec le réseau entièrement connecté)
Lunar Lander (testé en mode déterministe avec le réseau entièrement connecté)
GridWorld (testé avec le réseau entièrement connecté)
Tic-tac-toe (testé avec le réseau entièrement connecté et le réseau résiduel)
Connect4 (légèrement testé avec le réseau résiduel)
Gomoku
Vingt et un / blackjack (testé avec le réseau résiduel)
Breakout atari

Les tests sont effectués sur Ubuntu avec 16 Go de RAM / Intel i7 / GTX 1050ti Max-Q. Nous nous assurons d'obtenir une progression et un niveau qui garantit qu'il a appris. Mais nous n'atteignons pas systématiquement un niveau humain. Pour certains environnements, nous remarquons une régression après un certain temps. Les configurations proposées ne sont certainement pas optimales et nous ne nous concentrons pas pour l'instant sur l'optimisation des hyperparamètres. Toute aide est la bienvenue.

Structure de code

structure de code

Résumé du réseau:

Commencer

Installation

git clone https://github.com/werner-duvaud/muzero-general.git
cd muzero-general

pip install -r requirements.lock

Courir

python muzero.py

Pour visualiser les résultats de la formation, exécutez un nouveau terminal:

tensorboard --logdir ./results

Configurer

Vous pouvez adapter les configurations de chaque jeu en modifiant la classe MuZeroConfig du fichier respectif dans le dossier des jeux.

Travaux connexes

EfficientZero (Weirui Ye, Shaohuai Liu, Thanard Kurutach, Pieter Abbeel, Yang Gao)
Échantillonné Muzero (Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver)

Auteurs

Werner Duvaud
Aurèle Hainaut
Paul Lenoir
Contributeurs

Veuillez utiliser ce bibtex si vous souhaitez citer ce référentiel (branche principale) dans vos publications:

@misc{muzero-general,
  author       = {Werner Duvaud, Aurèle Hainaut},
  title        = {MuZero General: Open Reimplementation of MuZero},
  year         = {2019},
  publisher    = {GitHub},
  journal      = {GitHub repository},
  howpublished = { u rl{https://github.com/werner-duvaud/muzero-general}},
}

S'impliquer

Problèmes de GitHub: pour signaler les bogues.
Demandes de traction: pour soumettre des contributions de code.
Discord Server: pour des discussions sur le développement ou toute question générale.

Développer

Informations supplémentaires

Version 1.0.0
Type Python
Date de mise à jour 2025-07-14
taille 2.54MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Général du peuple

2022-07-26

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout