muzero generalダウンロード-Muzero muzero general Sourceコードのダウンロード

muzero general

パイソン

1.0.0

ダウンロード

Muzero General

Google Deepmind Paper（Schrittwieser et al。、2019年11月）および関連する擬似コードに基づいて、Muzeroのコメントと文書化された実装。すべてのゲームや強化学習環境（ジムなど）に簡単に適応できるように設計されています。ハイパーパラメーターとゲームクラスを使用してゲームファイルを追加するだけです。ドキュメントと例を参照してください。この実装は主に教育目的のためのものです。
Muzeroの説明ビデオ

Muzeroは、ボードゲーム（Chess、Go、...）およびAtari Gamesの最先端のRLアルゴリズムです。それはアルファゼロの後継者ですが、ダイナミクスの根底にある環境に関する知識はありません。 Muzeroは、環境のモデルを学習し、報酬、価値、ポリシー、および移行を予測するための有用な情報のみを含む内部表現を使用します。 Muzeroは、値予測ネットワークにも近い。それがどのように機能するかを見てください。

特徴

さらなる改善

これは、追加するのが興味深いが、Muzeroの論文にはない機能のリストです。私たちは貢献やその他のアイデアを受け入れています。

ハイパーパラメーター検索
継続的なアクションスペース
学習モデルを理解するためのツール
バッチMCT
3つ以上のプレイヤーゲームのサポート

デモ

すべてのパフォーマンスは、テンソルボードでリアルタイムで追跡および表示されます。

カートポールトレーニングの概要

Lunar Landerのテスト：

Lunarlanderトレーニングプレビュー

すでに実装されています

カートポール（完全に接続されたネットワークでテスト）
Lunar Lander（完全に接続されたネットワークで決定論的モードでテスト）
Gridworld（完全に接続されたネットワークでテスト）
TIC-TAC-TOE（完全に接続されたネットワークと残差ネットワークでテスト）
connect4（残差ネットワークでわずかにテスト）
ゴモク
21 / Blackjack（残差ネットワークでテスト）
アタリブレイクアウト

16 GB RAM / Intel I7 / GTX 1050TI MAX-QでUbuntuでテストが行われます。私たちは、それが学習したことを保証する進行とレベルを必ず取得するようにします。しかし、私たちは体系的に人間レベルに到達しません。特定の環境では、特定の時間後に回帰に気付きます。提案された構成は確かに最適ではなく、今のところハイパーパラメーターの最適化に焦点を合わせていません。どんな助けも大歓迎です。

コード構造

ネットワークの概要：

はじめる

インストール

git clone https://github.com/werner-duvaud/muzero-general.git
cd muzero-general

pip install -r requirements.lock

走る

python muzero.py

トレーニング結果を視覚化するには、新しいターミナルで実行します。

tensorboard --logdir ./results

config

ゲームフォルダのそれぞれのファイルのMuZeroConfigクラスを編集することにより、各ゲームの構成を適応させることができます。

著者

Werner Duvaud
AurèleHainaut
ポール・レノア
貢献者

出版物でこのリポジトリ（マスターブランチ）を引用したい場合は、このbibtexを使用してください。

@misc{muzero-general,
  author       = {Werner Duvaud, Aurèle Hainaut},
  title        = {MuZero General: Open Reimplementation of MuZero},
  year         = {2019},
  publisher    = {GitHub},
  journal      = {GitHub repository},
  howpublished = { u rl{https://github.com/werner-duvaud/muzero-general}},
}