Unduh LightZero - Unduh Kode Sumber LightZero

LightZero

ular piton

v0.1.0

Unduh

Lightzero

Diperbarui pada 2024.12.10 Lightzero-V0.1.0

Lightzero adalah alat algoritma open-source yang ringan, efisien, dan mudah dipahami yang menggabungkan pencarian pohon Monte Carlo (MCTS) dan pembelajaran penguatan mendalam (RL). Untuk setiap pertanyaan tentang Lightzero, Anda dapat berkonsultasi dengan asisten tanya jawab berbasis RAG: Zeropal.

? Latar belakang

Integrasi pencarian pohon Monte Carlo dan pembelajaran penguatan mendalam, yang dicontohkan oleh Alphazero dan Muzero, telah mencapai tingkat kinerja yang belum pernah terjadi sebelumnya di berbagai permainan, termasuk Go dan Atari. Metodologi canggih ini juga telah membuat langkah yang signifikan dalam domain ilmiah seperti prediksi struktur protein dan pencarian algoritma multiplikasi matriks. Berikut ini adalah tinjauan evolusi historis dari seri algoritma pencarian pohon Monte Carlo:

Gambar di atas adalah pipa kerangka Lightzero. Kami secara singkat memperkenalkan tiga modul inti di bawah ini:

Model : Model digunakan untuk mendefinisikan struktur jaringan, termasuk fungsi __init__ untuk menginisialisasi struktur jaringan dan fungsi forward untuk menghitung propagasi maju jaringan.

Kebijakan : Policy menentukan cara jaringan diperbarui dan berinteraksi dengan lingkungan, termasuk tiga proses: proses learning , proses collecting , dan proses evaluation .

MCTS : MCTS mendefinisikan struktur pohon pencarian Monte Carlo dan cara berinteraksi dengan kebijakan tersebut. Implementasi MCTS mencakup dua bahasa: Python dan C ++, masing -masing diimplementasikan di ptree dan ctree .

Untuk struktur file Lightzero, silakan merujuk ke Lightzero_File_Structure.

? Algoritma terintegrasi

Lightzero adalah perpustakaan dengan implementasi algoritma MCTS Pytorch (kadang -kadang dikombinasikan dengan Cython dan CPP), termasuk:

Alphazero
Muzero
Sampled Muzero
Stochastic Muzero
Efisiensizero
Gumbel Muzero
Rezero
Unizero

Lingkungan dan algoritma yang saat ini didukung oleh Lightzero ditampilkan pada tabel di bawah ini:

Env./Algo.	Alphazero	Muzero	Sampled Muzero	Efisiensizero	Sampled Efficientzero	Gumbel Muzero	Stochastic Muzero	Unizero	Sampled Unizero	Rezero
Tictactoe	✔	✔				✔		✔
Gomoku	✔	✔				✔		✔		✔
Connect4	✔	✔						✔		✔
2048	---	✔					✔	✔
Catur
Pergi
Kartpol	---	✔		✔	✔	✔	✔	✔		✔
Bandul	---	✔	✔	✔	✔	✔	✔		✔
Lunarlander	---	✔	✔	✔	✔	✔	✔	✔	✔
Bipedalwalker	---	✔	✔	✔	✔	✔			✔
Atari	---	✔		✔	✔	✔	✔	✔		✔
Kontrol DeepMind	---	---	✔	---	✔				✔
Mujoco	---	✔		✔	✔
Minigrid	---	✔		✔	✔			✔
Bsuite	---	✔		✔	✔			✔
Ingatan	---	✔		✔	✔			✔
Sumtothree (biliar)	---				✔
Metadrive	---				✔

^{(1): "✔" berarti bahwa item yang sesuai selesai dan diuji dengan baik.}

^{(2): "" berarti bahwa item yang sesuai ada dalam daftar tunggu (bekerja dalam proses).}

^{(3): "---" berarti bahwa algoritma ini tidak mendukung lingkungan ini.}

Instalasi

Anda dapat menginstal Lightzero terbaru dalam pengembangan dari kode sumber GitHub dengan perintah berikut:

git clone https://github.com/opendilab/LightZero.git
cd LightZero
pip3 install -e .

Mohon perhatikan bahwa Lightzero saat ini mendukung kompilasi hanya pada platform Linux dan macOS . Kami secara aktif bekerja untuk memperluas dukungan ini ke platform Windows . Kesabaran Anda selama transisi ini sangat dihargai.

Instalasi dengan Docker

Kami juga menyediakan DockerFile yang mengatur lingkungan dengan semua ketergantungan yang diperlukan untuk menjalankan perpustakaan Lightzero. Gambar Docker ini didasarkan pada Ubuntu 20.04 dan menginstal Python 3.8, bersama dengan alat dan perpustakaan lain yang diperlukan. Inilah cara menggunakan DockerFile kami untuk membangun gambar Docker, menjalankan wadah dari gambar ini, dan menjalankan kode Lightzero di dalam wadah.

Unduh DockerFile : DockerFile terletak di direktori root dari repositori Lightzero. Unduh file ini ke mesin lokal Anda.
Siapkan Konteks Bangun : Buat direktori kosong baru di mesin lokal Anda, pindahkan Dockerfile ke direktori ini, dan navigasikan ke direktori ini. Langkah ini membantu menghindari mengirim file yang tidak perlu ke daemon Docker selama proses pembangunan.
```
mkdir lightzero-docker
mv Dockerfile lightzero-docker/
cd lightzero-docker/
```
Bangun gambar Docker : Gunakan perintah berikut untuk membangun gambar Docker. Perintah ini harus dijalankan dari dalam direktori yang berisi Dockerfile.
```
docker build -t ubuntu-py38-lz:latest -f ./Dockerfile .
```
Jalankan wadah dari gambar : Gunakan perintah berikut untuk memulai wadah dari gambar dalam mode interaktif dengan shell bash.
```
docker run -dit --rm ubuntu-py38-lz:latest /bin/bash
```
Jalankan kode Lightzero di dalam wadah : Setelah Anda berada di dalam wadah, Anda dapat menjalankan contoh skrip Python dengan perintah berikut:
```
python ./LightZero/zoo/classic_control/cartpole/config/cartpole_muzero_config.py
```

Awal yang cepat

Latih agen Muzero untuk bermain cartpole:

 cd LightZero
python3 -u zoo/classic_control/cartpole/config/cartpole_muzero_config.py

Latih agen muzero untuk bermain pong:

 cd LightZero
python3 -u zoo/atari/config/atari_muzero_segment_config.py

Latih agen Muzero untuk bermain tictactoe:

 cd LightZero
python3 -u zoo/board_games/tictactoe/config/tictactoe_muzero_bot_mode_config.py

Latih agen unizero untuk bermain pong:

 cd LightZero
python3 -u zoo/atari/config/atari_unizero_segment_config.py

Dokumentasi

Dokumentasi Lightzero dapat ditemukan di sini. Ini berisi tutorial dan referensi API.

Bagi mereka yang tertarik untuk menyesuaikan lingkungan dan algoritma, kami memberikan panduan yang relevan:

Kustomisasi lingkungan
Kustomisasi algoritma
Bagaimana cara mengatur file konfigurasi?
Sistem penebangan dan pemantauan

Jika Anda memiliki pertanyaan, jangan ragu untuk menghubungi kami untuk mendapatkan dukungan.

Benchmark

Klik untuk memperluas

Di bawah ini adalah hasil patokan Alphazero dan Muzero pada tiga permainan papan: Tictactoe, Connect4, Gomoku.

tictactoe_bot-mode_main connect4_bot-mode_main gomoku_bot-mode_main

Di bawah ini adalah hasil tolok ukur Muzero, Muzero W/ SSL, Efficientzero dan Sampled EfficientZero pada tiga game ruang aksi diskrit di Atari.

pong_main qbert_main mspacman_main mspacman_sez_k

Di bawah ini adalah hasil tolok ukur dari EfficientZero sampel dengan representasi kebijakan Factored/Gaussian pada tiga permainan ruang aksi kontinu klasik: Pendulum-V1, LunarlanderContinuous-V2, Bipedalwalker-V3 dan dua Game Ruang Aksi Berkelanjutan Mujoco: Hopper-V3, Walker2D-V3.

"Kebijakan yang diperhitungkan" menunjukkan bahwa agen mempelajari jaringan kebijakan yang menghasilkan distribusi kategorikal. Setelah diskritisasi manual, dimensi ruang aksi untuk lima lingkungan adalah 11, 49 (7^2), 256 (4^4), 64 (4^3), dan 4096 (4^6), masing -masing. Di sisi lain, "Kebijakan Gaussian" mengacu pada agen yang mempelajari jaringan kebijakan yang secara langsung menghasilkan parameter (MU dan Sigma) untuk distribusi Gaussian.

pendulum_main pendulum_sez_k lunarlander_main

bipedalwalker_main hopper_main walker2d_main

Di bawah ini adalah hasil patokan Gumbelmuzero dan Muzero (di bawah biaya simulasi yang berbeda) pada empat lingkungan: Pongnoframeskip-V4, MSPACMANNOFRAMESKIP-V4, Gomoku, dan Lunarlandercontinuous-V2.

pong_gmz_ns mspacman_gmz_ns gomoku_bot-mode_gmz_ns lunarlander_gmz_ns

Di bawah ini adalah hasil patokan StochasticMuzero dan Muzero pada lingkungan 2048 dengan berbagai tingkat peluang (num_chances = 2 dan 5).

2048_stochasticmz_mz mspacman_gmz_ns

Di bawah ini adalah hasil benchmark dari berbagai mekanisme eksplorasi MCTS Muzero W/ SSL di lingkungan minigrid.

KeyCorridors3R3_Exploration fourrooms_exploration

Catatan Awesome-MCTS

Catatan kertas

Berikut ini adalah catatan kertas terperinci (dalam bahasa Cina) dari algoritma di atas:

Klik untuk runtuh

Alphazero
Muzero
Efisiensizero
SampledMuzero
Gumbelmuzero
StochasticMuzero
Notationtable

Anda juga dapat merujuk ke kolom Zhihu yang relevan (dalam bahasa Cina): Analisis mendalam dari teori dan aplikasi perbatasan MCTS+RL.

Algo. Ringkasan

Berikut ini adalah ikhtisar diagram prinsip MCTS dari algoritma di atas:

Klik untuk memperluas

MCTS
Alphazero
Muzero
Efisiensizero
SampledMuzero
Gumbelmuzero
StochasticMuzero

Kertas yang mengagumkan-MCTS

Berikut adalah kumpulan makalah penelitian tentang pencarian pohon Monte Carlo . Bagian ini akan terus diperbarui untuk melacak perbatasan MCTS.

Kertas kunci

Klik untuk memperluas

Seri Lightzero diimplementasikan

2018 Science Alphazero: Algoritma Pembelajaran Penguatan Umum That Masters Catur, Shogi, dan melalui bermain mandiri
2019 Muzero: Menguasai Atari, Go, Catur dan Shogi dengan merencanakan dengan model yang dipelajari
2021 Efficientzero: Menguasai game atari dengan data terbatas
2021 Sampled Muzero: Belajar dan Perencanaan di Ruang Aksi Kompleks
2022 Stochastic Muzero: Perencanaan di lingkungan stokastik dengan model yang dipelajari
2022 Gumbel Muzero: Peningkatan Kebijakan dengan Perencanaan dengan Gumbel

Seri Alphago

Nature Alphago 2015 Menguasai permainan Go dengan jaringan saraf yang dalam dan pencarian pohon
Nature Alphago Nol 2017 Menguasai permainan Go Tanpa Pengetahuan Manusia
2019 Elf OpenGo: Analisis dan Implementasi Terbuka Alphazero
- Kode
2023 Mahasiswa Permainan: Algoritma Pembelajaran Terpadu untuk Game Informasi yang Sempurna dan Tidak Sempurna

Seri Muzero

2022 Pembelajaran Penguatan Online dan Offline dengan Merencanakan dengan Model yang Dipelajari
2021 model vektor kuantisasi untuk perencanaan
2021 Muesli: Menggabungkan peningkatan dalam optimasi kebijakan.

Analisis MCTS

2020 Monte-Carlo Tree Search Sebagai Optimalisasi Kebijakan Termasuk
2021 model dan nilai yang konsisten diri sendiri
2022 Kebijakan permusuhan mengalahkan AIS tingkat profesional
2022 Akuisisi PNAS Pengetahuan Catur di Alphazero.

Aplikasi MCTS

2023 Pelajar Fisika Simbolik: Menemukan Persamaan yang Mengatur melalui Pencarian Pohon Monte Carlo
2022 Nature Menemukan Algoritma Multiplikasi Matriks yang Lebih Cepat dengan Pembelajaran Penguatan
- Kode
2022 Muzero dengan kompetisi diri untuk kontrol laju dalam kompresi video VP9
2021 Douzero: Menguasai Doudizhu dengan mandiri belajar penguatan yang mendalam
2019 menggabungkan perencanaan dan pembelajaran penguatan mendalam dalam pengambilan keputusan taktis untuk mengemudi otonom

Kertas lain

Klik untuk memperluas

ICML

Peningkatan Kebijakan Aman yang Dapat Diukur melalui Pencarian Pohon Monte Carlo 2023
- Alberto Castellini, Federico Bianchi, Edoardo Zorzi, Thiago D. Simão, Alessandro Farinelli, Matthijs TJ SPaan
- Kunci: Peningkatan Kebijakan Aman Online Menggunakan Strategi Berbasis MCTS, Peningkatan Kebijakan yang Aman dengan Bootstrap Baseline
- Expenv: GridWorld dan Sysadmin
Pembelajaran yang efisien untuk Alphazero melalui konsistensi jalur 2022
- Dengwei Zhao, Shikui Tu, Lei Xu
- Kunci: jumlah yang terbatas dari permainan mandiri, konsistensi jalur (PC) optimalitas
- Expenv: Go, Othello, Gomoku
Memvisualisasikan model muzero 2021
- Joery A. De Vries, Ken S. Voskuil, Thomas M. Moerland, Aske Plaat
- Kunci: Memvisualisasikan model dinamika setara nilai, lintasan aksi berbeda, dua teknik regularisasi
- Expenv: Cartpole dan Mountaincar.
Cembung Cembung di Monte-Carlo Tree Search 2021
- Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen
- Kunci: Operator cadangan pengatur-entropi, analisis penyesalan, etropi tsallis,
- Expenv: pohon sintetis, atari
Informasi Pohon Filter Partikel: Algoritma Online untuk PomDP dengan Hadiah Berbasis Keyakinan pada Domain Berkelanjutan 2020
- Johannes Fischer, Ömer Sahin Tas
- Kunci: POMDP kontinu, pohon filter partikel, pembentukan hadiah berbasis informasi, pengumpulan informasi.
- Expenv: Pomdps.jl Framework
- Kode
Retro*: Belajar Perencanaan Retrosintetik Dengan Saraf Tangan A* Pencarian 2020
- Binghong Chen, Chengtao LI, Hanjun Dai, Le Song
- Kunci: Perencanaan retrosintetik kimia, algoritma seperti A*berbasis saraf, Andor Tree
- EXPENV: Dataset USPTO
- Kode

Iclr

Kerangka Kesetaraan Pembaruan untuk Perencanaan Keputusan 2024
- Samuel Sokota, Gabriele Farina, David J Wu, Hengyuan Hu, Kevin A. Wang, J Zico Kolter, Noam Brown
- Kunci: Permainan Informasi yang Tidak Sfect, Pencarian, Perencanaan Waktu Keputusan, Kesetaraan Pembaruan
- Expenv: Hanabi, 3x3 tiba-tiba hex dan phantom tic-tac-toe
Pembelajaran Penguatan Multi-Agen yang Efisien dengan Perencanaan 2024
- Qihan Liu, Jianing Ye, Xiaoteng MA, Jun Yang, Bin Liang, Chongjie Zhang
- Kunci: Pembelajaran Penguatan Multi-Agen, Perencanaan, MCTS Multi-Agen
- Expenv: SMAC, Lunarlander, Mujoco, dan Google Research Football
Menjadi pemain yang mahir dengan data terbatas melalui menonton video murni 2023
- Weirui Ye, Yunsheng Zhang, Pieter Abbeel, Yang Gao
- KUNCI: Pra-pelatihan dari video bebas aksi, konsistensi siklus maju (FICC) objektif berdasarkan kuantisasi vektor, fase pra-pelatihan, fase penyempurnaan.
- Expenv: Atari
Kompetisi diri berbasis kebijakan untuk masalah perencanaan 2023
- Jonathan Pirnay, Quirin Göttl, Jakob Burger, Dominik Gerhard Grimm
- Kunci: Kompetisi diri, temukan lintasan yang kuat dengan perencanaan terhadap strategi yang mungkin dari diri masa lalunya.
- ExpenV: Masalah wisatawan bepergian dan masalah penjadwalan toko pekerjaan.
Menjelaskan model grafik temporal melalui kerangka kerja Explorer-Navigator 2023
- Wenwen Xia, Minsai Lai, Caihua Shan, Yao Zhang, Xinnan Dai, Xiang Li, Dongsheng LI
- Kunci: Penjelajah GNN temporal, seorang penjelajah untuk menemukan subset acara dengan MCTS, navigator yang mempelajari korelasi antara peristiwa dan membantu mengurangi ruang pencarian.
- Expenv: Wikipedia dan Reddit, set data sintetis
Speedyzero: Menguasai Atari dengan Data dan Waktu Terbatas 2023
- Yixuan Mei, Jiaxuan Gao, Weirui Ye, Shaohuai Liu, Yang Gao, Yi Wu
- Kunci: Sistem RL terdistribusi, penyegaran prioritas, terpotong Lars
- Expenv: Atari
Optimalisasi Kebijakan Offline yang Efisien Dengan Model 2023 yang Dipelajari
- Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng Yan, Zhongwen Xu
- Kunci: Algoritma berbasis model satu langkah yang diatur untuk Offline-RL
- Expenv: Atari ， Bsuite
- Kode
Mengaktifkan tujuan terjemahan sewenang -wenang dengan pencarian pohon adaptif 2022
- Wang Ling, Wojciech Stokowiec, Domenic Donato, Chris Dyer, Lei Yu, Laurent Sartran, Austin Matthews
- Kunci: Pencarian Pohon Adaptif, Model Terjemahan, Model Autoregressive,
- Expenv: Tugas Cina -Inggris dan Pashto -Inggris dari WMT2020, Jerman -Inggris dari WMT2014
Apa yang salah dengan pembelajaran mendalam dalam pencarian pohon untuk optimasi kombinatorial 2022
- Maximili1an Böther, Otto Kißig, Martin Taraz, Sarel Cohen, Karen Seidel, Tobias Friedrich
- Kunci: Optimalisasi kombinatorial, rangkaian tolok ukur sumber terbuka untuk masalah set independen maksimum NP-hard, analisis mendalam dari algoritma pencarian pohon berpemandu yang populer, bandingkan implementasi pencarian pohon dengan pemecah lainnya
- Expenv: NP-Hard Maksimum Set Independen.
- Kode
Perencanaan dan Pembelajaran Monte-Carlo dengan Estimasi Nilai Tindakan Bahasa 2021
- Youngsoo Jang, Seokin Seo, Jongmin Lee, Kee-Eung Kim
- Kunci: Pencarian pohon Monte-Carlo dengan eksplorasi berbasis bahasa, estimasi nilai bahasa optimis lokal.
- Expenv: Game Fiksi Interaktif (IF)
Pencarian pohon monte-carlo paralel yang praktis secara paralel diterapkan pada desain molekuler 2021
- Xiufeng Yang, Tanuj Kr Aasawat, Kazuki Yoshizoe
- Kunci: Pencarian pohon Monte-Carlo yang paralel secara masif, desain molekuler, pencarian paralel yang digerakkan hash,
- EXPENV: Koefisien partisi octanol-water (logp) yang dihukum oleh aksesibilitas sintetis (SA) dan skor penalti cincin besar.
Tonton The Unegnserved: Pendekatan Sederhana untuk Paralelisasi Pencarian Pohon Monte Carlo 2020
- Anji Liu, Jianshu Chen, Mingze Yu, Yu Zhai, Xuewen Zhou, Ji Liu
- Kunci: Pencarian pohon Monte-Carlo paralel, partisi pohon menjadi sub-pohon secara efisien, bandingkan rasio pengamatan masing-masing prosesor.
- Expenv: Perbandingan Speedup dan Kinerja pada Game Joy-City, Rata-rata Episode Pengembalian pada Game Atari
- Kode
Belajar merencanakan dalam dimensi tinggi melalui pohon eksplorasi saraf 2020
- Binghong Chen, Bo Dai, Qinjie Lin, Guo Ye, Han Liu, Le Song
- Kunci: Algoritma perencanaan meta jalur, mengeksploitasi arsitektur saraf baru yang dapat mempelajari arahan pencarian yang menjanjikan dari struktur masalah.
- Expenv: ruang kerja 2D dengan robot titik 2 dof (derajat kebebasan), robot 3 dof stick dan robot ular 5 dof

Neurips

Lightzero: Benchmark terpadu untuk pencarian pohon Monte Carlo secara umum skenario keputusan berurutan 2023
- Yazhe niu, pu yuan, zhenjie yang, xueyan li, tong zhou, jiyuan ren, shuai hu, hongsheng li, yu liu
- Kunci: Benchmark terpadu pertama untuk menggunakan MCTS/Muzero dalam skenario keputusan berurutan umum.
- Expenv: ClassicControl, Box2D, Atari, Mujoco, Gobigger, Minigrid, Tictactoe, ConnectFour, Gomoku, 2048, dll.
Model Bahasa Besar Sebagai Pengetahuan Advonsense Untuk Perencanaan Tugas Skala Besar 2023
- Zirui Zhao, Wee Sun Lee, David Hsu
- Kunci: Model Dunia (LLM) dan kebijakan yang diinduksi LLM dapat digabungkan dalam MCTS, untuk meningkatkan perencanaan tugas.
- Expenv: Perkalian, Perencanaan Perjalanan, Penataan Penataan Objek
Pencarian Pohon Monte Carlo dengan Boltzmann Exploration 2023
- Michael Painter, Mohamed Baioumy, Nick Hawes, Bruno Lacerda
- Kunci: Eksplorasi Boltzmann dengan MCT, tindakan optimal untuk tujuan entropi maksimum tidak selalu sesuai dengan tindakan optimal untuk tujuan asli, dua algoritma yang ditingkatkan.
- Expenv: Lingkungan Danau Beku, Masalah Berlayar, Pergi
Konsistensi jalur tertimbang umum untuk menguasai game atari 2023
- Dengwei Zhao, Shikui Tu, Lei Xu
- Kunci: Konsistensi jalur tertimbang umum, mekanisme pembobotan.
- Expenv: Atari
Pencarian Pohon Monte Carlo Monte dengan Abstraksi Status Pohon Probabilitas 2023
- Yangqing Fu, Ming Sun, Buqing Nie, Yue Gao
- Kunci: Probabilitas Keadaan Pohon Abstraksi, Transitivitas, dan Kesalahan Agregasi Terikat
- Expenv: Atari, Cartpole, Lunarlander, Gomoku
Pengeluaran waktu berpikir dengan bijak: mempercepat MCT dengan ekspansi virtual 2022
- Weirui ye, biara pieter, Yang Gao
- KUNCI: Pertukaran komputasi versus performancem, ekspansi virtual, menghabiskan waktu berpikir secara adaptif.
- Expenv: atari, 9x9 go
Perencanaan untuk Pembelajaran Imitasi Efisien Contoh 2022
- Zhao-Heng Yin, Weirui Ye, Qifeng Chen, Yang Gao
- Kunci: Kloning perilaku, pembelajaran imitasi permusuhan (AIL), RL berbasis MCTS.
- Expenv: DeepMind Control Suite
- Kode
Evaluasi Beyond Task Performance: Menganalisis Konsep di Alphazero di Hex 2022
- Charles Lovering, Jessica Zosa Forde, George Konidaris, Ellie Pavlick, Michael L. Littman
- Kunci: Representasi internal Alphazero, model penyelidikan dan tes perilaku, bagaimana konsep -konsep ini ditangkap dalam jaringan.
- Expenv: Hex
Apakah agen seperti Alphazero kuat untuk gangguan permusuhan? 2022
- Li-Cheng Lan, Huan Zhang, Ti-Rong Wu, Meng-Yu Tsai, I-Chen Wu, 4 Cho-Jui Hsieh
- Kunci: Negara -negara yang bermusuhan, serangan permusuhan pertama di Go AIS.
- Expenv: Pergi
Keturunan pohon Monte Carlo untuk optimasi kotak hitam 2022
- Yaoguang Zhai, Sicun Gao
- Kunci: Optimalisasi kotak hitam, bagaimana mengintegrasikan lebih lanjut keturunan berbasis sampel untuk optimasi yang lebih cepat.
- ExpenV: Fungsi sintetis untuk optimasi nonlinier, masalah pembelajaran penguatan di lingkungan penggerak mujoco, dan masalah optimisasi dalam pencarian arsitektur saraf (NAS).
Pemilihan Variabel Berbasis Pencarian Pohon Monte Carlo Untuk Optimasi Bayesian Dimensi Tinggi 2022
- Lei Song ∗, Ke Xue ∗, Xiaobin Huang, Chao Qian
- Kunci: Subruang dimensi rendah melalui MCTS, mengoptimalkan subruang dengan algoritma optimasi Bayesian apa pun.
- Expenv: Masalah NAS-Bench dan Mujoco Locomotion
Pencarian Pohon Monte Carlo dengan Abstraksi Negara Bagian yang Memperbaiki Secara iteratif 2021
- Samuel Sokota, Caleb Ho, Zaheen Ahmad, J. Zico Kolter
- Kunci: Lingkungan stokastik, pelebaran progresif, penyulingan abstraksi
- Expenv: Blackjack, Trap, lima kali lima pergi.
Sinoptik dalam Monte Carlo Perencanaan dalam Pengintaian Buta Catur 2021
- Gregory Clark
- Kunci: Informasi yang tidak sempurna, keadaan kepercayaan dengan filter partikel yang tidak tertimbang, abstraksi stokastik baru dari keadaan informasi.
- Expenv: Pengintaian Catur Buta
Poly-Hoot: Perencanaan Monte-Carlo dalam MDP Ruang Kontinu dengan Analisis Non-Asymptotic 2020
- Weichao Mao, Kaiqing Zhang, Qiaomin Xie, Tamer Ba¸sar
- Kunci: Ruang aksi negara kontinu, optimasi optimis hierarkis.
- Expenv: Cartpole, Pendulum Terbalik, Swing-Up, dan Lunarlander.
Mempelajari Partisi Ruang Pencarian untuk Optimalisasi Kotak Hitam Menggunakan Pencarian Pohon Monte Carlo 2020
- Linnan Wang, Rodrigo Fonseca, Yuandong Tian
- Kunci: Pelajari partisi ruang pencarian menggunakan beberapa sampel, batas keputusan nonlinier dan mempelajari model lokal untuk memilih kandidat yang baik.
- Expenv: tugas penggerak mujoco, tolok ukur skala kecil,
Mix and Match: Pendekatan pencarian pohon yang optimis untuk model pembelajaran dari distribusi campuran 2020
- Matthew Faw, Rajat Sen, Karthikeyan Shanmugam, Constantine Caramanis, Sanjay Shakkottai
- Kunci: Masalah shift kovariat, Mix & Match menggabungkan stochastic gradient descent (SGD) dengan pencarian pohon optimis dan penggunaan model kembali (mengembangkan model yang dilatih sebagian dengan sampel dari distribusi campuran yang berbeda)
- Kode

Konferensi atau jurnal lainnya

Belajar Berhenti: Simulasi Dinamis Pencarian Pohon Monte-Carlo AAAI 2021.
Tentang Monte Carlo Tree Search and Reinforcement Learning Journal of Artificial Intelligence Research 2017.
Pencarian arsitektur saraf yang efisien sampel dengan tindakan belajar untuk transaksi IEEE pohon Monte Carlo pada analisis pola dan kecerdasan mesin 2022.

Umpan balik dan kontribusi

Ajukan masalah di GitHub
Buka atau berpartisipasi dalam forum diskusi kami
Diskusikan di Lightzero Discord Server
Hubungi email kami ([email protected])
Kami menghargai semua umpan balik dan kontribusi untuk meningkatkan Lightzero, baik algoritma maupun desain sistem.

? Kutipan

@article{niu2024lightzero,
  title={LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios},
  author={Niu, Yazhe and Pu, Yuan and Yang, Zhenjie and Li, Xueyan and Zhou, Tong and Ren, Jiyuan and Hu, Shuai and Li, Hongsheng and Liu, Yu},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

@article{pu2024unizero,
  title={UniZero: Generalized and Efficient Planning with Scalable Latent World Models},
  author={Pu, Yuan and Niu, Yazhe and Ren, Jiyuan and Yang, Zhenjie and Li, Hongsheng and Liu, Yu},
  journal={arXiv preprint arXiv:2406.10667},
  year={2024}
}

@article{xuan2024rezero,
  title={ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze},
  author={Xuan, Chunyu and Niu, Yazhe and Pu, Yuan and Hu, Shuai and Liu, Yu and Yang, Jing},
  journal={arXiv preprint arXiv:2404.16364},
  year={2024}
}

? Ucapan Terima Kasih

Proyek ini telah dikembangkan sebagian berdasarkan pada pekerjaan perintis berikut pada repositori gitub. Kami mengucapkan terima kasih yang mendalam atas sumber daya dasar ini:

https://github.com/opendilab/di- engine
https://github.com/deepmind/mctx
https://github.com/yewr/efficientzero
https://github.com/werner-duvaud/muzero-general

Kami ingin menyampaikan terima kasih khusus kami kepada kontributor berikut @paparazz1, @karroyan, @nighood, @jayyoung0802, @timothijoe, @tutuhuss, @harryxuanancy, @puyuan1996, @hansbug untuk kontribusi mereka yang berharga dan dukungan ini.

Terima kasih untuk semua yang berkontribusi pada proyek ini: