Скачать LightZero - Скачать исходный код LightZero

LightZero

Питон

v0.1.0

Скачать

Лайтцера

Обновлено на 2024.12.10 Lightzer-V0.1.0

Lightzero-это легкий, эффективный и простой для понимания инструментарий алгоритма с открытым исходным кодом, который сочетает в себе поиск дерева Монте-Карло (MCT) и глубокое обучение подкреплению (RL). По любым вопросам о Lightzero вы можете проконсультироваться с помощником по вопросам и ответам на основе RAG: Zeropal.

? Фон

Интеграция поиска по дереву Монте -Карло и глубокого подкрепления, примером которого является Альфазеро и Музеро, достигла беспрецедентных уровней производительности в различных играх, включая Go и Atari. Эта передовая методология также добилась значительных успехов в научных областях, таких как прогноз структуры белка и поиск алгоритмов умножения матрицы. Ниже приведен обзор исторической эволюции серии алгоритмов поиска Монте -Карло:

Приведенная выше рисунок - это рамочный трубопровод Lightzero. Мы кратко представляем три основных модуля ниже:

Модель : Model используется для определения сетевой структуры, включая функцию __init__ для инициализации структуры сети и forward функции для вычисления прямого распространения сети.

Политика : Policy определяет способ обновления сети и взаимодействия с окружающей средой, включая три процесса: процесс learning , процесс collecting и процесс evaluation .

MCTS : MCTS определяет структуру дерева поиска Монте -Карло и то, как он взаимодействует с политикой. Реализация MCT включает в себя два языка: Python и C ++, реализованные в ptree и ctree , соответственно.

Для структуры файла Lightzero, пожалуйста, см. Lightzero_file_structure.

? Интегрированные алгоритмы

Lightzero - это библиотека с реализацией алгоритмов MCTS Pytorch (иногда в сочетании с цинтоном и CPP), включая:

Альфазеро
Музеро
Спорный Музеро
Стохастический музеро
Эффективно
Gumbel Muzero
Рецепт
Unizer

Среда и алгоритмы, которые в настоящее время поддерживаются Lightzero, показаны в таблице ниже:

Env./algo.	Альфазеро	Музеро	Спорный Музеро	Эффективно	SAMPLED EFFIFITCERO	Gumbel Muzero	Стохастический музеро	Unizer	SAMPLED UNIZERO	Рецепт
Tictactoe	✔	✔				✔		✔
Гомоку	✔	✔				✔		✔		✔
Connect4	✔	✔						✔		✔
2048	---	✔					✔	✔
Шахматы
Идти
Кусок	---	✔		✔	✔	✔	✔	✔		✔
Маятник	---	✔	✔	✔	✔	✔	✔		✔
Lunarlander	---	✔	✔	✔	✔	✔	✔	✔	✔
Bipedalwalker	---	✔	✔	✔	✔	✔			✔
Атари	---	✔		✔	✔	✔	✔	✔		✔
DeepMind Control	---	---	✔	---	✔				✔
Mujoco	---	✔		✔	✔
Минигрид	---	✔		✔	✔			✔
Bsuite	---	✔		✔	✔			✔
Память	---	✔		✔	✔			✔
Sumtothree (бильярд)	---				✔
Метадрив	---				✔

^{(1): «✔» означает, что соответствующий элемент закончен и хорошо проверен.}

^{(2): «» означает, что соответствующий элемент находится в списке ожидания (работа в процессе).}

^{(3): «---» означает, что этот алгоритм не поддерживает эту среду.}

Установка

Вы можете установить новейший Lightzero в разработке из исходных кодов GitHub со следующей командой:

git clone https://github.com/opendilab/LightZero.git
cd LightZero
pip3 install -e .

Пожалуйста, обратите внимание, что Lightzero в настоящее время поддерживает компиляцию только на платформах Linux и macOS . Мы активно работаем над продлением этой поддержки на платформу Windows . Ваше терпение во время этого перехода очень ценится.

Установка с Docker

Мы также предоставляем DockerFile, который устанавливает среду со всеми зависимостями, необходимыми для запуска библиотеки Lightzero. Это изображение Docker основано на Ubuntu 20.04 и устанавливает Python 3.8, а также другие необходимые инструменты и библиотеки. Вот как использовать наш Dockerfile для создания изображения Docker, запустить контейнер из этого изображения и выполнить код Lightzero внутри контейнера.

Загрузите Dockerfile : Dockerfile расположен в корневом каталоге репозитория Lightzero. Загрузите этот файл на локальную машину.
Подготовьте контекст сборки : создайте новый пустой каталог на вашей локальной машине, переместите Dockerfile в этот каталог и перейдите в этот каталог. Этот шаг помогает избежать отправки ненужных файлов в Docker Daemon в процессе сборки.
```
mkdir lightzero-docker
mv Dockerfile lightzero-docker/
cd lightzero-docker/
```
Создайте изображение Docker : используйте следующую команду для создания изображения Docker. Эту команду следует запускать изнутри каталога, который содержит Dockerfile.
```
docker build -t ubuntu-py38-lz:latest -f ./Dockerfile .
```
Запустите контейнер с изображения : используйте следующую команду, чтобы запустить контейнер из изображения в интерактивном режиме с оболочкой Bash.
```
docker run -dit --rm ubuntu-py38-lz:latest /bin/bash
```
Выполните код Lightzero внутри контейнера : как только вы находитесь в контейнере, вы можете запустить пример сценария Python со следующей командой:
```
python ./LightZero/zoo/classic_control/cartpole/config/cartpole_muzero_config.py
```

Быстрый старт

Тренируйте агент Muzero, чтобы играть в Cartpole:

 cd LightZero
python3 -u zoo/classic_control/cartpole/config/cartpole_muzero_config.py

Тренируйте агент Muzero, чтобы играть в поннг:

 cd LightZero
python3 -u zoo/atari/config/atari_muzero_segment_config.py

Тренируйте агента Muzero, чтобы играть в Tictactoe:

 cd LightZero
python3 -u zoo/board_games/tictactoe/config/tictactoe_muzero_bot_mode_config.py

Тренируйте агент Unizer, чтобы играть в Pong:

 cd LightZero
python3 -u zoo/atari/config/atari_unizero_segment_config.py

Документация

Документацию Lightzero можно найти здесь. Он содержит учебники и ссылку API.

Для тех, кто заинтересован в настройке сред и алгоритмов, мы предоставляем соответствующие руководства:

Настроить среды
Настроить алгоритмы
Как установить файлы конфигурации?
Система регистрации и мониторинга

Если у вас есть какие -либо вопросы, не стесняйтесь обращаться к нам за поддержкой.

Эталон

Нажмите, чтобы расширить

Ниже приведены контрольные результаты Альфазеро и Музеро на трех настольных играх: Tictactoe, Connect4, Gomoku.

tictactoe_bot-mode_main connect4_bot-mode_main gomoku_bot-mode_main

Ниже приведены эталонные результаты Muzero, Muzero w/ SSL, Effectiverze и Spected Effactzer на трех отдельных космических играх в Атари.

pong_main qbert_main mspacman_main mspacman_sez_k

Ниже приведены эталонные результаты выбранного эффективного контроля с Factored/Gaussian политическим представлением на трех классических непрерывных космических играх: Pendulum-V1, Lunarlandercontinount-V2, Bipedalwalker-V3 и две непрерывные действия Mujoco Space Games: Hopper-V3, Walker2d-V3.

«Факторная политика» указывает на то, что агент изучает сеть политики, которая выводит категорическое распределение. После ручной дискретизации размеры пространства действий для пяти сред составляют 11, 49 (7^2), 256 (4^4), 64 (4^3) и 4096 (4^6), соответственно. С другой стороны, «Гауссовая политика» относится к агенту, изучая сеть политики, которая напрямую выводит параметры (MU и Sigma) для гауссового распределения.

kendulum_main pendulum_sez_k Lunarlander_main

Bipedalwalker_main hopper_main Walker2d_main

Ниже приведены эталонные результаты Gumbelmuzero и Muzero (по разным затратам на моделирование) в четырех средах: Pongnoframeskip-V4, Mspacmannoframeskip-V4, Gomoku и Lunarlandercontinount-V2.

pong_gmz_ns mspacman_gmz_ns gomoku_bot-mode_gmz_ns lunarlander_gmz_ns

Ниже приведены контрольные результаты Stochasticmuzero и Muzero в среде 2048 года с различными уровнями случайности (num_chance = 2 и 5).

2048_stochasticmz_mz mspacman_gmz_ns

Ниже приведены эталонные результаты различных механизмов разведки MCTS Muzero с SSL в минигридной среде.

keyCorridors3r3_exploration Четырехмеры_exploration

Awesome-MCT-заметки

Бумажные заметки

Ниже приведены подробные бумажные заметки (на китайском языке) из приведенных выше алгоритмов:

Нажмите, чтобы обрушиться

Альфазеро
Музеро
Эффективно
Sampledmuzero
Gumbelmuzero
Stochasticmuzero
Нотация

Вы также можете обратиться к соответствующей колонке Zhihu (на китайском языке): углубленный анализ теорий и приложений по границе MCTS+RL.

Алго Обзор

Ниже приведены обзор принципов MCTS приведенных выше алгоритмов:

Нажмите, чтобы расширить

МС
Альфазеро
Музеро
Эффективно
Sampledmuzero
Gumbelmuzero
Stochasticmuzero

Awesome-MCTS

Вот коллекция исследовательских работ о поиске дерева Монте -Карло . Этот раздел будет постоянно обновляться для отслеживания границы MCT.

Ключевые документы

Нажмите, чтобы расширить

Lightzero реализовал серию

2018 Science Alphazero: общий алгоритм обучения подкреплению, который магистр шахмат, Shogi и проходит самостоятельную работу
Muzero 2019: Освоение Atari, Go, Chess и Shogi, планируя с учебной моделью
2021 Effectiverzero: освоение игр Atari с ограниченными данными
2021 Sampled Muzero: обучение и планирование в сложных пространствах действий
2022 Stochastic Muzero: Планирование в стохастических средах с учебной моделью
2022 Gumbel Muzero: улучшение политики путем планирования с Gumbel

Альфаго серия

2015 Nature Alphago овладеть игрой в глубокие нейронные сети и поиск деревьев
2017 Nature Alphago Zero овладевает игрой в Go Bound
2019 ELF OpenGO: анализ и открытая ревментирование Alphazero
- Код
2023 Студент игр: единый алгоритм обучения как для идеальных, так и для несовершенных информационных игр

Серия Muzero

2022 онлайн и офлайновый подкрепление
2021 векторные квантовые модели для планирования
2021 MUESLI: объединение улучшений в оптимизации политики.

Анализ MCTS

2020 г. Поиск дерева Монте-Карло в качестве регулярной оптимизация политики
2021 Самоусовершенные модели и ценности
2022 Политика состязательной политики победил профессиональный уровень Go AIS
2022 ПНА

Приложение MCTS

2023 Символическая физика Ученик физики: обнаружение управляющих уравнений через поиск дерева Монте -Карло
2022 Природа Обнаружение более быстрого алгоритмам умножения матрицы с обучением подкрепления
- Код
2022 Muzero с самообслуживанием для контроля скорости при сжатии видео VP9
2021 Douzero: Освоение Дудижу с самостоятельным обучением
2019 г. Сочетание планирования и обучения глубокому подкреплению при принятии тактических решений для автономного вождения

Другие документы

Нажмите, чтобы расширить

ICML

Масштабируемое улучшение безопасной политики через Поиск Монте -Карло Tree 2023
- Альберто Кастеллини, Федерико Бьянчи, Эдоардо Зорзи, Тиаго Д. СИМАО, Алессандро Фаринелли, Маттиджс Т.Дж.
- Ключ: безопасное улучшение политики онлайн с использованием стратегии на основе MCTS, безопасное улучшение политики с базовой начальной загрузкой
- Expenv: Gridworld и Sysadmin
Эффективное обучение для Alphazero через консистенцию пути 2022
- Денгвей Чжао, Шикуи Ту, Лей Сюй
- Ключ: ограниченное количество самостоятельных игроков, оптимальность по согласованности пути (ПК)
- Expenv: Go, Othello, Gomoku
Визуализация Muzero Models 2021
- Журнал А. де Врис, Кен С. Воскуил, Томас М. Моерленд, Aske Plaat
- Ключ: визуализация модели эквивалентной динамики значения, траектории действий расходятся, два метода регуляризации
- Expenv: Cartpole и Mountaincar.
Выпуктная регуляризация в Поиск дерева Монте-Карло 2021
- Туан Дам, Карло Д'Арамо, Ян Питерс, Джони Пахаринен
- Ключ: Резервное копирование энтропии-регуляризации, анализ сожаления, Tsallis etropy,
- Expenv: синтетическое дерево, atari
Дерево фильтров частиц информации: онлайн-алгоритм для POMDP с вознаграждениями, основанными на убеждениях, на непрерывных доменах 2020
- Йоханнес Фишер, Омер Сахин Тас
- Ключ: непрерывный POMDP, дерево фильтров частиц, информация о формировании вознаграждения, сбором информации.
- Expenv: Pomdps.jl Framework
- Код
Ретро*: Обучение ретросинтетическое планирование с нейронным управлением A* Search 2020
- Binghong Chen, Chengtao Li, Hanjun Dai, Le Song
- Ключ: Химическое ретросинтетическое планирование, нейронный алгоритм Andor Andor, Andor Tree
- Expenv: наборы данных USPTO
- Код

ICLR

Структура эквивалентности обновления для планирования принятия решений 2024
- Сэмюэль Сокота, Габриэле Фарина, Дэвид Дж. Ву, Хенгьюан Ху, Кевин А. Ван, Дж. Зико Колтер, Ноам Браун
- Ключ: Игры несовершенной информации, поиск, планирование времени принятия решений, эквивалентность обновления
- Expenv: Ханаби, 3х3 резкий темный шестнадцатеричный и фантомный
Эффективное многоагентное обучение подкреплению путем планирования 2024
- Цихан Лю, Цзянинг Йе, Сяотенг М.А., Джун Ян, бин Лян, Чонджи Чжан
- Ключ: многоагентное обучение подкреплению, планирование, многоагентные MCTS
- Expenv: SMAC, Lunarlander, Mujoco и Google Research Football
Станьте опытным игроком с ограниченными данными с помощью просмотра Pure Video 2023
- Вейруи Йе, Юншенг Чжан, Питер Аббейл, Ян Гао
- Ключ: предварительное обучение из видео без действий, объектива по консистенции прямого цикла (FICC), основанная на квантовании вектора, фазе предварительного обучения, фаза тонкой настройки.
- Expenv: Atari
Политическая самообслуживание для проблем планирования 2023
- Джонатан Пирнай, Квирин Геттл, Якоб Бургер, Доминик Герхард Гримм
- Ключ: самообъекция, найдите сильные траектории, планируя против возможных стратегий его прошлого.
- EXPENV: Проблема с продавцом и проблемами планирования работы.
Объяснение моделей временных графиков через Explorer-Navigator Framework 2023
- Wenwen Xia, Mincai Lai, Caihua Shan, Yao Zhang, Xinnan Dai, Xiang Li, Dongsheng Li
- КЛЮЧ: Themalal GNN Explicter, исследователь, чтобы найти подмножества событий с MCTS, навигатором, который изучает корреляции между событиями и помогает уменьшить пространство поиска.
- Expenv: Википедия и Reddit, синтетические наборы данных
Speedyzero: освоить Atari с ограниченными данными и временем 2023 года
- Yixuan Mei, Jiaxuan Gao, Weirui Ye, Shaohuai Liu, Yang Gao, Yi Wu
- Ключ: распределенная система RL, приоритетное обновление, обрезанный LARS
- Expenv: Atari
Эффективная оптимизация политики в автономном режиме с помощью обученной модели 2023
- Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng Yan, Zhongwen Xu
- Ключ: регуляризованный одноэтапный алгоритм на основе модели для офлайн-RL
- Expenv: atari ， Bsuite
- Код
Включение произвольных целей перевода с адаптивным поиском дерева 2022
- Wang Ling, Wojciech Stokowiec, Domenic Donato, Chris Dyer, Lei Yu, Laurent Sartran, Austin Matthews
- Ключ: адаптивный поиск деревьев, модели перевода, авторегрессивные модели,
- Expenv: китайский -английский и пуш что -английские задачи от WMT2020, немецкий -английский от WMT2014
Что не так с глубоким обучением в поиске деревьев для комбинаторной оптимизации 2022
- Maximili1an Böther, Otto Kißig, Martin Taraz, Sarel Cohen, Karen Seidel, Tobias Friedrich
- Ключ: комбинаторная оптимизация, набор тестов с открытым исходным кодом для максимальной проблемы с независимым набором NP-Hard, углубленный анализ популярного алгоритма поиска с гидом, сравните реализации поиска деревьев с другими решателями
- Expenv: NP-Hard Максимальный независимый набор.
- Код
Планирование и обучение Монте-Карло с оценками ценности действий. 2021
- Youngsoo Jang, Seokin Seo, Jongmin Lee, Kee-Eung Kim
- Ключ: Поиск дерева Monte-Carlo с языковым исследованием, локально оптимистичные оценки языковой ценности.
- Expenv: интерактивные фантастические (если) игры
Практический массовый параллельный поиск дерева Монте-Карло, применяемый к молекулярному дизайну 2021
- Xiufeng Yang, Tanuj Kr Aasawat, Kazuki Yoshizoe
- Ключ: Массивно параллельный поиск дерева Монте-Карло, молекулярный дизайн, хеш-управляемый параллельный поиск,
- Expenv: коэффициент раздела октанол-воды (LOGP), наказываемый синтетической доступностью (SA) и большим штрафом кольца.
Следите за неисправностью: простой подход к параллелизированию Поиска Монте -Карло Tree 2020
- Анджи Лю, Цзяншу Чен, Мингзе Ю, Ю Чжай, Сюевен Чжоу, Джи Лю
- Ключ: Параллельный поиск дерева Монте-Карло, эффективно разделяйте дерево на подтисты, сравните коэффициент наблюдения каждого процессора.
- Expenv: Сравнение ускорения и производительности в игре Joy-City, средний эпизод возврат Atari Game
- Код
Обучение планировать в высоких измерениях с помощью нейронных исследований-эксплуатационных деревьев 2020
- Binghong Chen, Bo Dai, Qinjie Lin, Guo Ye, Han Liu, Le Song
- Ключ: Алгоритм планирования мета -пути, использует новую нейронную архитектуру, которая может изучать многообещающие направления поиска из проблемных структур.
- Expenv: 2D Workspace с 2 DOF (градусов свободы) точечный робот, робот из 3 DOF и робот из 5 DOF Snake

Невра

Lightzero: унифицированный эталон для поиска Tree Monte Carlo в общих последовательных сценариях решения 2023
- Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren, Shuai Hu, Hongsheng Li, Yu Liu
- Ключ: первый унифицированный эталон для развертывания MCTS/Muzero в общих сценариях последовательных решений.
- Expenv: ClassicControl, Box2d, Atari, Mujoco, Gobigger, Minigrid, Tictactoe, Connectfour, Gomoku, 2048 и т. Д.
Большие языковые модели как знания здравого смысла для крупномасштабного планирования задач 2023
- Зируи Чжао, Wee Sun Lee, David Hsu
- Ключ: World Model (LLM) и индуцированная LLM-индуцированная политика могут быть объединены в MCT, чтобы расширить планирование задач.
- Expenv: умножение, планирование путешествия, перестройка объекта
Поиск дерева Монте -Карло с разведкой Больцмана 2023
- Майкл Пейнтер, Мохамед Байуми, Ник Хоус, Бруно Лакерда
- Ключ: Исследование Больцмана с MCTS, оптимальные действия для максимальной энтропийной цели не обязательно соответствуют оптимальным действиям для исходной цели, двух улучшенных алгоритмов.
- Expenv: окружающая среда замороженного озера, проблема с парусом, уйти
ОБЩИЙ Взвешенный путь для освоения игр Atari 2023
- Денгвей Чжао, Шикуи Ту, Лей Сюй
- Ключ: Обобщенная консистенция взвешенного пути, механизм взвешивания.
- Expenv: Atari
Ускорение поиска дерева Монте -Карло с абстракцией состояния дерева вероятности 2023
- Янцин Фу, Мин Сан, Букин Ни, Юэ Гао
- Ключ: Ограничение погрешности состояния дерева вероятности, транзитивность и ошибка агрегации
- Expenv: Atari, Cartpole, Lunarlander, Gomoku
Расходы на размышление мудро: ускорение MCT с виртуальными расширениями 2022
- Вейруи Йе, Питер Аббейл, Ян Гао
- Ключ: комбинируйте вычисления по сравнению с эксплуатацией, виртуальными расширениями, адаптивно провести время.
- Expenv: atari, 9x9 go
Планирование образца эффективного имитационного обучения 2022
- Zhao-Heng Yin, Weirui Ye, Qifeng Chen, Yang Gao
- Ключ: поведенческое клонирование ， Adversarial имитационное обучение (AIL) ， RL на основе MCTS.
- Expenv: DeepMind Control Suite
- Код
Оценка за пределы работы задачи: анализ концепций в Alphazero в Hex 2022
- Чарльз Ловринг, Джессика Зоса Форде, Джордж Конидарис, Элли Павлик, Майкл Л. Литтман
- Ключ: внутренние представления Alphazero, модель -исследовательские и поведенческие тесты, как эти концепции захватываются в сети.
- Expenv: Hex
Альфазеро, подобные агентам, устойчивы к состязательным возмущениям? 2022
- Ли-Ченг Лан, Хуан Чжан, Ти-Ронг Ву, Менг-Ю Цай, I-Чен Ву, 4 Чо-Юи Сих
- Ключ: состязательные государства, первая состязательная атака на Go AIS.
- Expenv: Go
Монте-Карло Дерево спуск для оптимизации черного ящика 2022
- Ягуан Чжай, Сикун Гао
- Ключ: оптимизация черного ящика, как дальнейшая интеграция спуска на основе образцов для более высокой оптимизации.
- Expenv: синтетические функции для нелинейной оптимизации, проблемы обучения в области обучения в средах локомоции Mujoco, а также проблемы оптимизации в поиске нейронной архитектуры (NAS).
Выбор переменных на основе поиска дерева Монте -Карло для байесовской оптимизации 2022
- Lei Song ∗, Ke Xue ∗, Xiaobin Huang, Chao Qian
- Ключ: низкоразмерное подпространство через MCTS, оптимизизируя в подпространстве с любым алгоритмом байесовской оптимизации.
- Expenv: проблемы NAS-Bench и Mujoco Locomotion
Поиск дерева Монте -Карло с итеративно уточняющим абстракции состояний 2021
- Сэмюэль Сокота, Калеб Хо, Захин Ахмад, Дж. Зико Колтер
- Ключ: стохастические среды, прогрессивное расширение, уточнение абстракции
- Expenv: блэкджек, ловушка, пять на пять ходов.
Глубокое синоптическое планирование Монте -Карло в разведывании слепых шахмат 2021
- Грегори Кларк
- Ключ: несовершенная информация, состояние убеждения с невзвешенным фильтром частиц, новая стохастическая абстракция информационных состояний.
- Expenv: разведка слепые шахматы
Поли-хот: Планирование Монте-Карло в непрерывном пространстве MDP с неасимптотическим анализом 2020
- Weichao Mao, Kaiqing Zhang, Qiaomin Xie, Tamer Ba¸sar
- Ключ: Пространства непрерывного состояния, иерархическая оптимистическая оптимизация.
- Expenv: Cartpole, перевернутый маятник, качание и лунный.
Разделение пространства поиска обучения для оптимизации черного ящика с использованием Monte Carlo Tree Search 2020
- Линнан Ван, Родриго Фонсека, Юандонг Тянь
- Ключ: изучает разделение пространства поиска, используя несколько образцов, нелинейную границу принятия решений и изучает локальную модель для выбора хороших кандидатов.
- Expenv: Mujoco Mocomotion Задачи, мелкие тесты,
Смешивание и совпадение: оптимистичный подход к поиску деревьев для обучения моделей из распределений смеси 2020
- Мэтью Фоу, Раджат Сен, Картикеян Шанмугам, Константин Караманис, Санджай Шаккоттай
- Ключ: Ковариатная проблема сдвига, микс и совпадение объединяет стохастический градиентный спуск (SGD) с оптимистичным поиском дерева и повторном использовании модели (развитие частично обученных моделей с образцами из разных распределений смесей)
- Код

Другая конференция или журнал

Обучение остановке: динамическое моделирование Monte-Carlo Tree Search Aaai 2021.
О поиске и подкреплении Monte Carlo Tree Tree Journal Journal of Artifical Intelligence Research 2017.
Образец, эффективный поиск нейронной архитектуры, обучающий действия для поиска Tree Tree Monte Carlo Trasters Transactions по анализу паттернов и машинного интеллекта 2022.

Обратная связь и вклад

Подать проблему на GitHub
Откройте или участвуйте в нашем дискуссионном форуме
Обсудить на сервере Discord Lightzero
Свяжитесь с нашим электронным письмом ([email protected])
Мы ценим все отзывы и вклад в улучшение Lightzero, как алгоритмов, так и системных конструкций.

? Цитирование

@article{niu2024lightzero,
  title={LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios},
  author={Niu, Yazhe and Pu, Yuan and Yang, Zhenjie and Li, Xueyan and Zhou, Tong and Ren, Jiyuan and Hu, Shuai and Li, Hongsheng and Liu, Yu},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

@article{pu2024unizero,
  title={UniZero: Generalized and Efficient Planning with Scalable Latent World Models},
  author={Pu, Yuan and Niu, Yazhe and Ren, Jiyuan and Yang, Zhenjie and Li, Hongsheng and Liu, Yu},
  journal={arXiv preprint arXiv:2406.10667},
  year={2024}
}

@article{xuan2024rezero,
  title={ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze},
  author={Xuan, Chunyu and Niu, Yazhe and Pu, Yuan and Hu, Shuai and Liu, Yu and Yang, Jing},
  journal={arXiv preprint arXiv:2404.16364},
  year={2024}
}

? Благодарности

Этот проект был разработан частично основан на следующих новаторских работах по репозиториям GitHub. Мы выражаем глубокую благодарность за эти основополагающие ресурсы:

https://github.com/opendilab/di-engine
https://github.com/deepmind/mctx
https://github.com/yewr/effiftzero
https://github.com/werner-duvaud/muzero General

Мы хотели бы выразить нашу особую благодарность следующим участникам @paparazz1, @karroyan, @nighood, @jayyoung0802, @timothijoe, @tutuhuss, @harryxuancy, @puyuan1996, @hansbug за их ценные взносы и поддержку этой библиотеке Algorithm.

Спасибо всем, кто внес свой вклад в этот проект: