rlcardダウンロードrlcardソースコードのダウンロード

rlcard

その他のソースコード

RLCard 1.0.7

ダウンロード

RLCARD：カードゲームでの補強学習のためのツールキット

中文文档

RLCardは、カードゲームのRehnection Learning（RL）のためのツールキットです。さまざまな強化学習と検索アルゴリズムを実装するための使いやすいインターフェイスを備えた複数のカード環境をサポートしています。 RLCardの目標は、補強学習と不完全な情報ゲームを橋渡しすることです。 RLCardは、RiceおよびTexas A＆M UniversityのData Labによって開発され、コミュニティの貢献者が開発されています。

公式ウェブサイト：https：//www.rlcard.org
jupyterノートブックのチュートリアル：https：//github.com/datamllab/rlcard-tutorial
論文：https：//arxiv.org/abs/1910.04376
ビデオ：YouTube
GUI：rlcard-showdown
Dou Dizhu Demo：デモ
リソース：素晴らしいゲーム
関連プロジェクト：Douzero Project
Zhihu：https：//zhuanlan.zhihu.com/p/526723604
その他のリソース：
- オープンソースの大規模な時系列モデル（LTSM）をご覧ください！
- データ中心のAIについて聞いたことがありますか？データ中心のAI調査と素晴らしいデータ中心のAIリソースをご覧ください！

コミュニティ：

Slack ：＃rlcard-project Slackチャンネルで話し合います。
QQグループ：QQグループに参加して話し合います。パスワード：RLCARDQQGROUP
- グループ1：665647450
- グループ2：117349516

ニュース：

Jupyterノートブックのチュートリアルを更新して、RLCardを歩くのに役立ちます！ rlcardチュートリアルを確認してください。
すべてのアルゴリズムは、Pettingzooをサポートできるようになりました。ここで確認してください。 Yifei chengの貢献に感謝します。
Douzero、Dou Dou Dizhu AIとICML 2021ペーパーをフォローしてください。オンラインデモはこちらから入手できます。アルゴリズムはRLCardにも統合されています。 Dou DizhuのトレーニングDMCを参照してください。
私たちのパッケージはPettingzooで使用されています。チェックしてください！
RLCard-Showdown、GUI Demo for RLCardをリリースしました。こちらをご覧ください！
Jupyterノートブックチュートリアルが利用可能！ Rにいくつかの例をRLCARDのPythonインターフェイスを網状に呼び出します。こちらをご覧ください
Blackjackでさまざまな数のプレイヤーをサポートしてくれた @Clarit7の貢献をありがとう。徐々にゲームをより構成可能にするための貢献を求めています。詳細については、こちらをご覧ください。
BlackjackおよびLimitemem Human Interfaceに @Clarit7の貢献をしてくれてありがとう。
現在、RLCardは環境をサポートしています。 @weepingwillowbenが提供するテストスクリプトをありがとう。
Nolimit Holdemの人間のインターフェイスが利用可能です。 Nolimit Holdemのアクションスペースは抽象化されています。 @adrianp-の貢献をありがとう。
新しいゲームジンラミーと人間のGUIが利用可能です。 @billh0420の貢献をありがとう。
Pytorchの実装が利用可能です。 @mjudellの貢献をありがとう。

貢献者

次のゲームは、主にコミュニティの貢献者によって開発および維持されています。ありがとう！

ジン・ラミー： @billh0420
ブリッジ： @billh0420

すべての貢献者に感謝します！

ダオチェンザ hsywhu caoyuanpu Billh0420 ruzhwei Adrianpgob Zhigal aypee19 clarit7 lhenry15 イスマエル・エラチフィ Mjudell jkterry1 Kaanozdogru junyuguo
xixo99 ロドリゴデラズカノ Michael1015198808 MIA1996 カイス claude9493 ソンサン Rishabhvarshney14 aetheryang rxng8 nondecidibile benblack769 Zhengsx Andrewnc

この作業を引用してください

このリポジトリが便利だと思う場合は、引用することができます。

Zha、Daochen、他「RLCARD：カードゲームでの強化学習のためのプラットフォーム。」 ijcai。 2020。

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

インストール

Python 3.6+とPIPがインストールされていることを確認してください。 rlcardの安定したバージョンをpipでインストールすることをお勧めします。

 pip3 install rlcard

デフォルトのインストールには、カード環境のみが含まれます。トレーニングアルゴリズムのPytorch実装を使用するには、実行します

 pip3 install rlcard[torch]

あなたが中国にいて、上記の命令が遅すぎる場合、Tsinghua Universityが提供する鏡を使用できます。

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

または、最新のバージョンをクローンでクローンすることができます（中国にいて、Githubが遅い場合は、Giteeでミラーを使用できます）：

 git clone https://github.com/datamllab/rlcard.git

または、1つのブランチのみをクローンして高速にします。

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

次に、インストールします

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

また、 Condaのインストール方法も提供しています。

 conda install -c toubun rlcard

Condaのインストールはカード環境のみを提供するため、Pytorchを手動で要求に合わせてインストールする必要があります。

例

簡単な例は以下のとおりです。

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

RLCardは、さまざまなアルゴリズムに柔軟に接続できます。次の例を参照してください。

ランダムエージェントと遊ぶ
ブラックジャックのディープQ学習
Leduc Hold'emでのトレーニングCFR（チャンスサンプリング）
前提条件のLeducモデルを楽しんでいます
Dou DizhuでのトレーニングDMC
エージェントの評価
Pettingzooでのトレーニングエージェント

デモ

examples/human/leduc_holdem_human.py事前に訓練されたLeduchold'emモデルで遊ぶ。 Leduc Hold'emは、Texas Hold'emの簡素化されたバージョンです。ルールはここにあります。

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

また、簡単にデバッグするためのGUIを提供します。ここで確認してください。いくつかのデモ：

Doudizhu-replay Leducレプレイ

利用可能な環境

いくつかの側面でゲームの複雑さの推定を提供します。 INFOSET番号：情報セットの数。 INFOSETサイズ：単一の情報セット内の状態の平均数。アクションサイズ：アクションスペースのサイズ。名前： rlcard.makeに渡す必要がある名前は、ゲーム環境を作成します。また、ドキュメントへのリンクとランダムな例を提供します。

ゲーム	インフォセット番号	インフォセットサイズ	アクションサイズ	名前	使用法
ブラックジャック（ウィキ、バイク）	10^3	10^1	10^0	ブラックジャック	ドキュメント、例
Leduc Hold'em（紙）	10^2	10^2	10^0	leduc-holdem	ドキュメント、例
テキサスホールデムを制限する（ウィキ、バイク）	10^14	10^3	10^0	Limit-Holdem	ドキュメント、例
Dou Dizhu（Wiki、Baike）	10^53〜10^83	10^23	10^4	Doudizhu	ドキュメント、例
マジョン（ウィキ、バイク）	10^121	10^48	10^2	マジョン	ドキュメント、例
無線テキサスHold'em（Wiki、Baike）	10^162	10^3	10^4	limit-holdem	ドキュメント、例
uno（wiki、baike）	10^163	10^10	10^1	uno	ドキュメント、例
ジン・ラミー（ウィキ、バイク）	10^52	-	-	ジン・ラミー	ドキュメント、例
ブリッジ（ウィキ、バイケ）		-	-	橋	ドキュメント、例

サポートされているアルゴリズム

アルゴリズム	例	参照
ディープモンテカルロ（DMC）	例/run_dmc.py	[紙]
ディープQラーニング（DQN）	例/run_rl.py	[紙]
神経架空の自己プレイ（NFSP）	例/run_rl.py	[紙]
反事実的後悔の最小化（CFR）	例/run_cfr.py	[紙]

事前に訓練されたルールベースのモデル

ベースラインとして機能するモデル動物園を提供します。

モデル	説明
leduc-holdem-cfr	Leduc Hold'emの事前訓練を受けたCFR（チャンスサンプリング）モデル
leduc-holdem-rule-v1	Leduc Hold'emのルールベースのモデル、v1
leduc-holdem-rule-v2	Leduc Hold'emのルールベースのモデル、v2
UNO-RULE-V1	UNOのルールベースのモデル、V1
Limit-holdem-rule-v1	Limit Texas Hold'em、v1のルールベースのモデル
Doudizhu-rule-V1	Dou Dizhuのルールベースのモデル、v1
Gin-Rummy-Novice-rule	ジンラミー初心者ルールモデル

APIチートシート

環境を作成する方法

次のインターフェイスを使用して、環境を作成できます。オプションで、辞書でいくつかの構成を指定できます。

env = rlcard.make（env_id、config = {}） ：環境を作成します。 env_idは環境の文字列です。 config 、次のような環境構成を指定する辞書です。
- seed ：デフォルトNone 。結果を再現するための環境ローカルランダムシードを設定します。
- allow_step_back ：デフォルトのFalse 。 True step_back関数がツリー内で後方に移動できるようにする場合。
- ゲーム固有の構成：これらのフィールドはgame_で始まります。現在、BlackJackでgame_num_playersのみをサポートしています。

Environemntが作成されたら、ゲームの情報にアクセスできます。

env.num_actions ：アクションの数。
env.num_players ：プレイヤーの数。
env.state_shape ：観測の状態空間の形状。
env.action_shape ：アクション機能の形状（Dou Dizhuのアクションは機能としてエンコードできます）

rlcardの状態は何ですか

状態はPython辞書です。観察state['obs'] 、法的措置state['legal_actions'] 、生の観察state['raw_obs'] 、および生の法的措置state['raw_legal_actions']で構成されています。

基本的なインターフェイス

次のインターフェイスは、基本的な使用法を提供します。使いやすいですが、エージェントに仮定があります。エージェントはエージェントテンプレートに従う必要があります。

env.set_agents（エージェント） ： agents Agentオブジェクトのリストです。リストの長さは、ゲーム内のプレイヤーの数に等しくなければなりません。
env.run（is_training = false） ：完全なゲームを実行し、軌跡と支払いを返します。この関数は、 set_agentsが呼び出された後に使用できます。 is_trainingがTrue場合、エージェントのstep関数を使用してゲームを再生します。 is_trainingがFalseの場合、 eval_stepが代わりに呼び出されます。

高度なインターフェイス

高度な使用のために、次のインターフェイスにより、ゲームツリーの柔軟な操作が可能になります。これらのインターフェイスは、エージェントに仮定を作成しません。

env.reset（） ：ゲームの初期化。状態と最初のプレーヤーIDを返します。
env.step（action、raw_action = false） ：環境で1つのステップを踏みます。 action 、生のアクションまたは整数です。アクションがrawアクション（string）の場合、 raw_action Trueなければなりません。
env.Step_back（） ： allow_step_back Trueの場合にのみ利用可能です。一歩後退します。これは、CFR（チャンスサンプリング）などのゲームツリーで動作するアルゴリズムに使用できます。
env.is_over（） ：現在のゲームが終了した場合はTrueを返します。まず、 Falseを返します。
env.get_player_id（） ：現在のプレーヤーのプレーヤーIDを返します。
env.get_state（player_id） ： player_idに対応する状態を返します。
env.get_payoffs（） ：ゲームの最後に、すべてのプレーヤーのペイオフのリストを返します。
env.get_perfect_information（） ：（現在、一部のゲームのみをサポートしています）現在の状態で完全な情報を取得します。

ライブラリ構造

メインモジュールの目的を以下にリストします。

/例：RLCardの使用例。
/docs：rlcardのドキュメント。
/テスト：rlcardのスクリプトのテスト。
/rlcard/エージェント：補強学習アルゴリズムと人間エージェント。
/rlcard/envs：環境ラッパー（状態表現、アクションエンコードなど）
/RLCARD/ゲーム：さまざまなゲームエンジン。
/rlcard/モデル：事前に訓練されたモデルとルールモデルを含むモデル動物園。

その他のドキュメント

詳細については、一般的な紹介についてはドキュメントを参照してください。 APIドキュメントは当社のWebサイトで入手できます。

貢献

このプロジェクトへの貢献は大歓迎です！フィードバック/バグについては問題を作成してください。コードを寄付したい場合は、寄稿ガイドを参照してください。ご質問がある場合は、[email protected]でDaochen Zhaに連絡してください。

謝辞

JJ World Network Technology Co.、Ltd、寛大なサポートとコミュニティの貢献者からのすべての貢献について感謝します。

拡大する

追加情報

バージョン RLCard 1.0.7
タイプその他のソースコード
更新時間 2025-02-26
サイズ 404.68KB
から Github

rlcard

RLCARD：カードゲームでの補強学習のためのツールキット

貢献者

この作業を引用してください

インストール

例

デモ

利用可能な環境

サポートされているアルゴリズム

事前に訓練されたルールベースのモデル

APIチートシート

環境を作成する方法

rlcardの状態は何ですか

基本的なインターフェイス

高度なインターフェイス

ライブラリ構造

その他のドキュメント

貢献

謝辞

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf