Скачать rlcard - скачать исходный код rlcard

rlcard

Другой исходный код

RLCard 1.0.7

Скачать

Rlcard: инструментарий для обучения подкреплению в карточных играх

中文文档

RLCARD - это инструментарий для обучения подкреплению (RL) в карточных играх. Он поддерживает несколько карт среды с простыми в использовании интерфейсов для реализации различных алгоритмов обучения и поиска подкрепления. Целью RLCARD является преодоление подкрепления обучения и несовершенных информационных игр. RLCARD разрабатывается Data Lab в Университете Rice и Texas A & M и участниками сообщества.

Официальный веб -сайт: https://www.rlcard.org
Учебное пособие в Notebook Jupyter: https://github.com/datamllab/rlcard-tutorial
Бумага: https://arxiv.org/abs/1910.04376
Видео: YouTube
GUI: Rlcard-Showdown
Dou Dizhu Демо: демонстрация
Ресурсы: потрясающая игра-аи
Связанный проект: Douzero Project
Zhihu: https://zhuanlan.zhihu.com/p/526723604
Разные ресурсы:
- Проверьте нашу модель больших временных рядов с открытым исходным кодом (LTSM)!
- Вы слышали об искусственном интеллекте, ориентированном на данные? Пожалуйста, ознакомьтесь с нашим исследованием искусственного интеллекта, ориентированным на данные, и удивительные ресурсы ИИ, ориентированные на данные!

Сообщество:

Slack : Обсудите в нашем канале Slack #Rlcard-Project.
Группа QQ : Присоединяйтесь к нашей группе QQ, чтобы обсудить. Пароль: rlcardqqqgroup
- Группа 1: 665647450
- Группа 2: 117349516

Новости:

Мы обновили учебные пособия в ноутбуке Jupyter, чтобы помочь вам пройти через Rlcard! Пожалуйста, проверьте учебник RLCARD.
Все алгоритмы могут приучить Pettingzoo. Пожалуйста, проверьте здесь. Спасибо за вклад от Yifei Cheng.
Пожалуйста, следуйте Douzero, сильной статье Dou Dizhu AI и ICML 2021. Онлайн -демонстрация доступна здесь. Алгоритм также интегрирован в RLCard. Смотрите Training DMC на Dou Dizhu.
Наш пакет используется в Pettingzoo. Пожалуйста, проверьте это!
Мы выпустили Rlcard-Showdown, DEMO для GUI для RLCARD. Пожалуйста, проверьте здесь!
Учебное пособие по ноутбуке Jupyter! Мы добавляем несколько примеров в R, чтобы вызвать интерфейсы Python Rlcard с ретикуляцией. Смотрите здесь
Спасибо за вклад @clarit7 за поддержку различного числа игроков в Блэкджеке. Мы призываем к вкладу для постепенного делая игры более настраиваемыми. Смотрите здесь для более подробной информации.
Спасибо за вклад @clarit7 за блэкджек и ограниченный человеческий интерфейс Hold'em.
Теперь RLCARD поддерживает местную посев и многопроцессорную сеть. Спасибо за тестирование сценариев, предоставленных @weepingwillowben.
Человеческий интерфейс nolimit holdem доступен. Пространство действий Nolimit Holdem было абстрактным. Спасибо за вклад @Adrianp-.
Новая игра Джин Рамми и человеческий графический интерфейс доступны. Спасибо за вклад @Billh0420.
Реализация Pytorch доступна. Спасибо за вклад @mjudell.

Участники

Следующие игры в основном разрабатываются и поддерживаются участниками сообщества. Спасибо!

Джин Рамми: @billh0420
Мост: @billh0420

Спасибо всем участникам!

Дахенжа HSYWHU Caoyuanpu Billh0420 Ружвей Adrianpgob Жигал Aypee19 Clarit7 Lhenry15 Исмаэль-элатифи Мьюделл jkterry1 Кааноздогру Junyuguo
XIXO99 Rodrigodelazcano Michael1015198808 MIA1996 Кайкс Claude9493 Сонсанг Ришабхваршни14 Эфиян rxng8 НЕСЕСКАЙНАЯ Benblack769 Zhengsx Эндрюнк

Цитируйте эту работу

Если вы найдете это репо полезным, вы можете процитировать:

Zha, Daochen, et al. «Rlcard: платформа для обучения подкреплению в карточных играх». Ijcai. 2020.

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

Установка

Убедитесь, что у вас установлен Python 3.6+ и PIP . Мы рекомендуем установить стабильную версию rlcard с pip :

 pip3 install rlcard

Установка по умолчанию будет включать только среды карт. Чтобы использовать внедрение алгоритмов обучения, запустить

 pip3 install rlcard[torch]

Если вы находитесь в Китае и вышеупомянутое команда слишком медленная, вы можете использовать зеркало, предоставленное Университетом Цинхуа:

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

В качестве альтернативы, вы можете клонировать последнюю версию (если вы находитесь в Китае, а GitHub медленно, вы можете использовать зеркало в Gitee):

 git clone https://github.com/datamllab/rlcard.git

или только клонировать одну ветвь, чтобы сделать его быстрее:

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

Затем установите с

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

Мы также предоставляем метод установки Conda :

 conda install -c toubun rlcard

Установка Conda предоставляет только среду карт, вам необходимо вручную установить Pytorch по вашим требованиям.

Примеры

Краткий пример , как показано ниже.

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

RLCard может быть гибко подключен к различным алгоритмам. Смотрите следующие примеры:

Игра со случайными агентами
Deep-Q обучение на блэкджеке
Обучение CFR (случайная выборка) на LEDUC HOLD'EM
Веселие с предварительной моделью LEDUC
Обучение DMC на Dou Dizhu
Оценка агентов
Учебные агенты на Pettingzoo

Демо

Запустите examples/human/leduc_holdem_human.py чтобы играть с предварительно обученной моделью LEDUC HOLD'EM. Leduc Hold'em - упрощенная версия Texas Hold'em. Правила можно найти здесь.

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

Мы также предоставляем графический интерфейс для легкой отладки. Пожалуйста, проверьте здесь. Некоторые демонстрации:

Doudizhu-Replay Leduc-Replay

Доступные среды

Мы предоставляем оценку сложности для игр по нескольким аспектам. НОМЕР INFOSET: количество информационных наборов; Размер Infoset: среднее количество состояний в одном наборе информации; Размер действия: размер пространства действия. Имя: Имя, которое должно быть передано в rlcard.make , чтобы создать игровую среду. Мы также предоставляем ссылку на документацию и случайный пример.

Игра	Infoset номер	Размер Infoset	Размер действия	Имя	Использование
Блэкджек (Wiki, Baike)	10^3	10^1	10^0	блэкджек	Док, пример
Leduc hold'em (бумага)	10^2	10^2	10^0	Leduc-Holdem	Док, пример
Ограничьте Texas hold'em (Wiki, Baike)	10^14	10^3	10^0	лимитный-холм	Док, пример
Доу Дицху (Вики, Байк)	10^53 ~ 10^83	10^23	10^4	Дудижу	Док, пример
Маджонг (Вики, Байк)	10^121	10^48	10^2	маджонг	Док, пример
No-Limit Texas hold'em (Wiki, Baike)	10^162	10^3	10^4	без ограничений	Док, пример
Uno (Wiki, Baike)	10^163	10^10	10^1	ун	Док, пример
Джин Рамми (Вики, Байк)	10^52	-	-	Джин-Руми	Док, пример
Мост (Вики, Байк)		-	-	мост	Док, пример

Поддерживаемые алгоритмы

Алгоритм	пример	ссылка
Глубокий Монте-Карло (DMC)	Примеры/run_dmc.py	[бумага]
Глубокое Q-обучение (DQN)	Примеры/run_rl.py	[бумага]
Нейронная вымышленная самостоятельная игра (NFSP)	Примеры/run_rl.py	[бумага]
Минимизация контрфактивного сожаления (CFR)	Примеры/run_cfr.py	[бумага]

Предварительно обученные и модели на основе правил

Мы предоставляем модельный зоопарк, чтобы служить базовым показателям.

Модель	Объяснение
Leduc-Holdem-Cfr	Предварительно обученная модель CFR (случайная выборка) на LEDUC HOLD'EM
Leduc-Holdem-Rule-V1	Модель на основе правил для LeDuc Hold'em, V1
Leduc-Holdem-Rule-V2	Модель на основе правил для LeDuc Hold'em, V2
UNO-RULE-V1	Модель на основе правил для Uno, v1
предел-холд-руле-V1	Модель на основе правил для ограничения Texas hold'em, v1
Doudizhu-Rule-V1	Модель на основе правил для Dou Dizhu, V1
Джин-рамми-нович-руле	Модель правил новичка Джин Рамми

Шпаргалка API

Как создать среду

Вы можете использовать следующий интерфейс для создания среды. Вы можете при желании указать некоторые конфигурации с помощью словаря.

env = rlcard.make (env_id, config = {}) : сделать среду. env_id - это строка среды; config - это словарь, который определяет некоторые конфигурации среды, которые следующие.
- seed : по умолчанию None . Установите окружающую среду локальное случайное семя для воспроизведения результатов.
- allow_step_back : по умолчанию False . True , если разрешение функции step_back пройти назад в дереве.
- Конфигурации, специфичные для игры: эти поля начинаются с game_ . В настоящее время мы поддерживаем только game_num_players в Блэкджеке.

Как только окружающая среда сделана, мы можем получить доступ к некоторой информации об игре.

env.num_actions : количество действий.
env.num_players : количество игроков.
env.state_shape : форма пространства состояния наблюдений.
env.action_shape : форма функций действия (действие Dou Dizhu может кодироваться как функции)

Что такое штат в rlcard

Государство - это словарь Python. Он состоит из state['obs'] , юридических действий, state['legal_actions'] , необработанного state['raw_obs'] и state['raw_legal_actions'] .

Основные интерфейсы

Следующие интерфейсы обеспечивают базовое использование. Это прост в использовании, но у него есть предположения на агенте. Агент должен следовать шаблону агента.

env.set_agents (агенты) : agents - это список объекта Agent . Продолжительность списка должна быть равна количеству игроков в игре.
env.run (is_training = false) : запустите полную игру и возврат траектории и выплаты. Функция может быть использована после вызова set_agents . Если is_training True , он будет использовать функцию step в агенте для игры в игру. Если is_training является False , вместо этого будет вызван eval_step .

Продвинутые интерфейсы

Для расширенного использования следующие интерфейсы позволяют гибкие операции на дереве игры. Эти интерфейсы не делают никаких предположений на агенте.

env.reset () : инициализируйте игру. Верните состояние и первый идентификатор игрока.
env.step (action, raw_action = false) : сделайте один шаг в окружающей среде. action может быть необработанным действием или целым числом; raw_action должен быть True , если действие является необработанным действием (строка).
env.step_back () : доступно только тогда, когда allow_step_back True . Сделайте один шаг назад. Это может быть использовано для алгоритмов, которые работают на дереве игры, таких как CFR (случайная выборка).
env.is_over () : вернуть True если текущая игра закончилась. Вдали, верните False .
env.get_player_id () : вернуть идентификатор игрока текущего игрока.
env.get_state (player_id) : вернуть состояние, которое соответствует player_id .
env.get_payoffs () : В конце игры верните список выплат для всех игроков.
env.get_perfect_information () : (в настоящее время поддерживают только некоторые игры) Получите идеальную информацию в текущем состоянии.

Библиотечная структура

Цели основных модулей перечислены, как показано ниже:

/Примеры: примеры использования rlcard.
/DOCS: Документация RLCARD.
/Тесты: тестирование сценариев для RLCard.
/rlcard/Agents: Алгоритмы обучения подкрепления и человеческие агенты.
/rlcard/envs: обертки окружающей среды (представление состояния, кодирование действий и т. Д.)
/rlcard/игры: различные игровые двигатели.
/rlcard/models: модельный зоопарк, включая предварительно обученные модели и модели правил.

Больше документов

Для получения дополнительной документации, пожалуйста, обратитесь к документам для общих вступлений. Документы API доступны на нашем сайте.

Внося

Вклад в этот проект очень ценится! Пожалуйста, создайте проблему для отзывов/ошибок. Если вы хотите внести коды, пожалуйста, обратитесь к руководству. Если у вас есть какие -либо вопросы, пожалуйста, свяжитесь с Daochen Zha с [email protected].

Благодарности

Мы хотели бы поблагодарить JJ World Network Technology Co., Ltd за щедрую поддержку и все вклады со стороны участников сообщества.

Расширять

Дополнительная информация

Версия RLCard 1.0.7
Тип Другой исходный код
Время обновления 2025-02-26
размер 404.68KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

rlcard

Rlcard: инструментарий для обучения подкреплению в карточных играх

Участники

Цитируйте эту работу

Установка

Примеры

Демо

Доступные среды

Поддерживаемые алгоритмы

Предварительно обученные и модели на основе правил

Шпаргалка API

Как создать среду

Что такое штат в rlcard

Основные интерфейсы

Продвинутые интерфейсы

Библиотечная структура

Больше документов

Внося

Благодарности

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf