การใช้งานที่แสดงความคิดเห็นและจัดทำเอกสารของ Muzero ตามกระดาษ Google DeepMind (Schrittwieser et al., Nov 2019) และ Pseudocode ที่เกี่ยวข้อง มันถูกออกแบบมาให้ปรับตัวได้ง่ายสำหรับทุกเกมหรือสภาพแวดล้อมการเรียนรู้การเสริมแรง (เช่นยิม) คุณจะต้องเพิ่มไฟล์เกมด้วย HyperParameters และคลาสเกม โปรดดูเอกสารและตัวอย่าง การดำเนินการนี้มีวัตถุประสงค์เพื่อการศึกษาเป็นหลัก
วิดีโออธิบายของ Muzero
Muzero เป็นอัลกอริทึมที่ทันสมัยของศิลปะ RL สำหรับเกมกระดาน (Chess, Go, ... ) และ Atari Games มันเป็นผู้สืบทอดต่อ Alphazero แต่ไม่มีความรู้เกี่ยวกับสภาพแวดล้อมที่มีพลวัต Muzero เรียนรู้รูปแบบของสภาพแวดล้อมและใช้การเป็นตัวแทนภายในที่มีเฉพาะข้อมูลที่เป็นประโยชน์สำหรับการทำนายรางวัลมูลค่านโยบายและการเปลี่ยนแปลง Muzero ยังใกล้เคียงกับเครือข่ายการทำนายมูลค่า ดูว่ามันทำงานอย่างไร
นี่คือรายการของคุณสมบัติที่น่าสนใจที่จะเพิ่ม แต่ไม่ได้อยู่ในกระดาษของ Muzero เราเปิดรับการมีส่วนร่วมและแนวคิดอื่น ๆ
การแสดงทั้งหมดจะถูกติดตามและแสดงแบบเรียลไทม์ใน Tensorboard:

การทดสอบ Lunar Lander:

การทดสอบจะทำบน Ubuntu ด้วย RAM 16 GB / Intel I7 / GTX 1050Ti Max-Q เราตรวจสอบให้แน่ใจว่าได้รับความก้าวหน้าและระดับที่ทำให้มั่นใจได้ว่าได้เรียนรู้ แต่เราไม่สามารถเข้าถึงระดับมนุษย์ได้อย่างเป็นระบบ สำหรับสภาพแวดล้อมบางอย่างเราสังเกตเห็นการถดถอยหลังจากผ่านไประยะเวลาหนึ่ง การกำหนดค่าที่เสนอนั้นไม่ได้ดีที่สุดอย่างแน่นอนและเราไม่ได้มุ่งเน้นไปที่การเพิ่มประสิทธิภาพของพารามิเตอร์ hyperparameters ยินดีต้อนรับความช่วยเหลือใด ๆ

สรุปเครือข่าย:

git clone https://github.com/werner-duvaud/muzero-general.git
cd muzero-general
pip install -r requirements.lockpython muzero.pyเพื่อให้เห็นภาพผลการฝึกอบรมให้ทำงานในเทอร์มินัลใหม่:
tensorboard --logdir ./results คุณสามารถปรับการกำหนดค่าของแต่ละเกมได้โดยการแก้ไขคลาส MuZeroConfig ของไฟล์ที่เกี่ยวข้องในโฟลเดอร์เกม
โปรดใช้ bibtex นี้หากคุณต้องการอ้างอิงพื้นที่เก็บข้อมูลนี้ (สาขาหลัก) ในสิ่งพิมพ์ของคุณ:
@misc{muzero-general,
author = {Werner Duvaud, Aurèle Hainaut},
title = {MuZero General: Open Reimplementation of MuZero},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = { u rl{https://github.com/werner-duvaud/muzero-general}},
}