muzero general下载muzero general源代码下载

muzero general

Python

1.0.0

下载

Muzero将军

根据Google DeepMind论文（Schrittwieser等人，2019年11月）和相关的伪代码进行了评论并记录了Muzero的实施。它旨在为每个游戏或强化学习环境（例如健身房）易于适应。您只需要与超参数和游戏类添加游戏文件。请参阅文档和示例。该实施主要用于教育目的。
Muzero的解释性视频

Muzero是棋盘游戏（国际象棋，Go，...）和Atari Games的最先进的RL算法。它是Alphazero的继任者，但在不了解动态的环境的任何知识中。 Muzero了解环境模型，并使用内部表示，该表示仅包含用于预测奖励，价值，政策和过渡的有用信息。 Muzero也接近价值预测网络。看看它的工作原理。

特征

进一步的改进

这是一系列功能列表，可能会添加有趣，但在Muzero的论文中不添加。我们愿意做出贡献和其他想法。

演示

所有表演均在Tensorboard中实时跟踪和显示：

Cartpole培训摘要

测试Lunar Lander：

Lunarlander培训预览

游戏已经实现

Cartpole（用完全连接的网络测试）
Lunar Lander（以完全连接的网络在确定性模式下测试）
GRIDWORLD（用完全连接的网络测试）
TIC-TAC-TOE（用完全连接的网络和剩余网络测试）
连接4（用残差网络稍作测试）
gomoku
二十一 /二十一点（用剩余网络测试）
Atari突破

通过16 GB RAM / Intel I7 / GTX 1050TI Max-Q在Ubuntu上进行测试。我们确保获得一个进步和一个确保其学到的水平。但是我们没有系统地达到人类水平。对于某些环境，我们注意到一定时间后的回归。所提出的配置当然不是最佳的，我们现在不集中精力进行超参数的优化。欢迎任何帮助。

代码结构

网络摘要：

入门

安装

git clone https://github.com/werner-duvaud/muzero-general.git
cd muzero-general

pip install -r requirements.lock

跑步

python muzero.py

为了可视化训练结果，请在新的终端中运行：

tensorboard --logdir ./results

config

您可以通过编辑游戏文件夹中各个文件的MuZeroConfig类来调整每个游戏的配置。

作者

Werner Duvaud
AurèleHainaut
保罗·莱诺尔（Paul Lenoir）
贡献者

如果您想在出版物中引用此存储库（主分支），请使用此Bibtex：

@misc{muzero-general,
  author       = {Werner Duvaud, Aurèle Hainaut},
  title        = {MuZero General: Open Reimplementation of MuZero},
  year         = {2019},
  publisher    = {GitHub},
  journal      = {GitHub repository},
  howpublished = { u rl{https://github.com/werner-duvaud/muzero-general}},
}