Descargar rlcard - Descargar el código fuente rlcard

rlcard

Otro código fuente

RLCard 1.0.7

Descargar

Rlcard: un conjunto de herramientas para el aprendizaje de refuerzo en los juegos de cartas

中文文档

RLCard es un kit de herramientas para el aprendizaje de refuerzo (RL) en los juegos de cartas. Admite múltiples entornos de tarjetas con interfaces fáciles de usar para implementar varios algoritmos de aprendizaje y búsqueda de refuerzo. El objetivo de RLCARD es unir el aprendizaje de refuerzo y los juegos de información imperfectos. RLCARD es desarrollado por Data Lab en la Universidad Rice y Texas A&M, y colaboradores comunitarios.

Sitio web oficial: https://www.rlcard.org
Tutorial en el cuaderno de Jupyter: https://github.com/datamllab/rlcard-tutorial
Documento: https://arxiv.org/abs/1910.04376
Video: YouTube
GUI: rlcard-showdow
Dou Dizhu Demo: Demo
Recursos: Award-Game-AI
Proyecto relacionado: Proyecto DoUZero
Zhihu: https://zhuanlan.zhihu.com/p/526723604
Recursos misceláneos:
- ¡Vea nuestro modelo de serie de tiempo grande (LTSM) de origen abierto!
- ¿Has oído hablar de la IA centrada en datos? ¡Consulte nuestra encuesta de IA centrada en datos y los increíbles recursos de IA centrados en datos!

Comunidad:

Slack : Discuta en nuestro canal #Rlcard-Project Slack.
Grupo QQ : Únase a nuestro grupo QQ para discutir. Contraseña: rlcardqqgroup
- Grupo 1: 665647450
- Grupo 2: 117349516

Noticias:

¡Hemos actualizado los tutoriales en el cuaderno de Jupyter para ayudarlo a caminar por Rlcard! Por favor, consulte el tutorial RLCard.
Todos los algoritmos pueden soportar Pettingzoo ahora. Por favor consulte aquí. Gracias la contribución de Yifei Cheng.
Siga a DouZero, un fuerte Dou Dizhu Ai y el papel ICML 2021. Una demostración en línea está disponible aquí. El algoritmo también está integrado en RLCARD. Vea el entrenamiento DMC en Dou Dizhu.
Nuestro paquete se usa en Pettingzoo. ¡Por favor, échale un vistazo!
Hemos lanzado Rlcard-Showdown, demostración de GUI para Rlcard. ¡Por favor, mira aquí!
¡Tutorial de cuaderno de Jupyter disponible! Agregamos algunos ejemplos en R para llamar a las interfaces de Python de Rlcard con reticulado. Ver aquí
Gracias por la contribución de @Clarit7 por apoyar diferentes número de jugadores en Blackjack. Pedimos contribuciones para hacer que los juegos sean más configurables. Vea aquí para más detalles.
Gracias por la contribución de @Clarit7 para el blackjack y Limit Hold'em Human Interface.
Ahora Rlcard admite la siembra local y multiprocesamiento del medio ambiente. Gracias por los scripts de prueba proporcionados por @weepingwillowben.
Interfaz humana de Nolimit Holdem disponible. El espacio de acción de Nolimit Holdem ha sido abstraído. Gracias por la contribución de @adrianp-.
Nuevo juego Gin Rummy y Human GUI disponibles. Gracias por la contribución de @billh0420.
Implementación de Pytorch disponible. Gracias por la contribución de @mjudell.

Colaboradores

Los siguientes juegos son desarrollados y mantenidos principalmente por contribuyentes de la comunidad. ¡Gracias!

Gin Rummy: @billh0420
Puente: @billh0420

¡Gracias a todos los contribuyentes!

daochenzha hsywhu Caoyuanpu Billh0420 Ruzhwei adrianpgob Zhigal aypee19 Clarit7 Lhenry15 ismael-elatifi mjudell jkterry1 kaanozdogru Junyuguo
Xixo99 rodrigodelazcano Michael1015198808 MIA1996 kaiks Claude9493 Amanecer rishabhvarshney14 Aetheryang rxng8 nocidibil Benblack769 zhengsx Andrewnc

Cita este trabajo

Si encuentra útil este repositorio, puede citar:

Zha, Daochen, et al. "Rlcard: una plataforma para el aprendizaje de refuerzo en los juegos de cartas". Ijcai. 2020.

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

Instalación

Asegúrese de tener Python 3.6+ y PIP instalados. Recomendamos instalar la versión estable de rlcard con pip :

 pip3 install rlcard

La instalación predeterminada solo incluirá los entornos de tarjetas. Para usar la implementación de Pytorch de los algoritmos de capacitación, ejecute

 pip3 install rlcard[torch]

Si está en China y el comando anterior es demasiado lento, puede usar el espejo proporcionado por la Universidad de Tsinghua:

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

Alternativamente, puede clonar la última versión con (si está en China y GitHub es lento, puede usar el espejo en Gitee):

 git clone https://github.com/datamllab/rlcard.git

o solo clone una rama para hacerlo más rápido:

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

Luego instalar con

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

También proporcionamos el método de instalación de Conda :

 conda install -c toubun rlcard

La instalación de Conda solo proporciona los entornos de tarjetas, debe instalar manualmente Pytorch en sus demandas.

Ejemplos

Un breve ejemplo es el siguiente.

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

Rlcard se puede conectar flexiblemente a varios algoritmos. Vea los siguientes ejemplos:

Jugando con agentes al azar
Aprendizaje de Deep-Q en Blackjack
Entrenamiento CFR (muestreo de casos) en Leduc Hold'em
Divirtiéndose con el modelo LEDUC previamente alado
Entrenamiento de DMC en Dou Dizhu
Evaluación de agentes
Agentes de entrenamiento en Pettingzoo

Manifestación

Ejecutar examples/human/leduc_holdem_human.py para jugar con el modelo Leduc Hold'em previamente capacitado. Leduc Hold'em es una versión simplificada de Texas Hold'em. Las reglas se pueden encontrar aquí.

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

También proporcionamos una GUI para una fácil depuración. Por favor consulte aquí. Algunas demostraciones:

replazgo doudizhu replazgo de Leduc

Entornos disponibles

Proporcionamos una estimación de complejidad para los juegos en varios aspectos. Número de Infoset: el número de conjuntos de información; Tamaño de Infoset: el número promedio de estados en un solo conjunto de información; Tamaño de acción: el tamaño del espacio de acción. Nombre: El nombre que debe pasar a rlcard.make para crear el entorno del juego. También proporcionamos el enlace a la documentación y al ejemplo aleatorio.

Juego	Número de infoset	Tamaño de infoset	Tamaño de acción	Nombre	Uso
Blackjack (wiki, baike)	10^3	10^1	10^0	veintiuna	doc, ejemplo
Leduc Hold'em (papel)	10^2	10^2	10^0	Leduc-Holdem	doc, ejemplo
Límite de Texas Hold'em (Wiki, Baike)	10^14	10^3	10^0	Límite-Holdem	doc, ejemplo
Dou Dizhu (Wiki, Baike)	10^53 ~ 10^83	10^23	10^4	doudizhu	doc, ejemplo
Mahjong (Wiki, Baike)	10^121	10^48	10^2	dominó chino	doc, ejemplo
No-Limit Texas Hold'em (Wiki, Baike)	10^162	10^3	10^4	sin límite	doc, ejemplo
Uno (wiki, baike)	10^163	10^10	10^1	desatado	doc, ejemplo
Gin Rummy (Wiki, Baike)	10^52	-	-	gin-rummy	doc, ejemplo
Puente (Wiki, Baike)		-	-	puente	doc, ejemplo

Algoritmos compatibles

Algoritmo	ejemplo	referencia
Deep Monte-Carlo (DMC)	ejemplos/run_dmc.py	[papel]
Profundo Q-learning (DQN)	ejemplos/run_rl.py	[papel]
NEUNURA FICTIGO FICTUSTO (NFSP)	ejemplos/run_rl.py	[papel]
Minimización de arrepentimiento contrafáctico (CFR)	ejemplos/run_cfr.py	[papel]

Modelos pre-entrenados y basados en reglas

Proporcionamos un zoológico modelo para servir como líneas de base.

Modelo	Explicación
Leduc-Holdem-CFR	Modelo de CFR previamente capacitado (muestreo casual) en Leduc Hold'em
Leduc-Holdem-Rule-V1	Modelo basado en reglas para Leduc Hold'em, V1
Leduc-Holdem-Rule-V2	Modelo basado en reglas para Leduc Hold'em, V2
uno-reglul-v1	Modelo basado en reglas para UNO, V1
límite-holdem-reghul-v1	Modelo basado en reglas para Limit Texas Hold'em, V1
doudizhu-rule-v1	Modelo basado en reglas para Dou Dizhu, V1
Gin-Rummy-Novice-Regla	Modelo de reglas de novato gin rummy

Hoja de trucos de API

Cómo crear un entorno

Puede usar la siguiente interfaz para hacer un entorno. Opcionalmente, puede especificar algunas configuraciones con un diccionario.

env = rlcard.make (env_id, config = {}) : hacer un entorno. env_id es una cadena de un entorno; config es un diccionario que especifica algunas configuraciones de entorno, que son las siguientes.
- seed : predeterminado None . Establezca una semilla aleatoria local de entorno para reproducir los resultados.
- allow_step_back : predeterminado False . True si permite que la función step_back atraviese hacia atrás en el árbol.
- Configuraciones específicas del juego: estos campos comienzan con game_ . Actualmente, solo apoyamos game_num_players en Blackjack ,.

Una vez que se realiza el entorno, podemos acceder a alguna información del juego.

env.num_acciones : el número de acciones.
env.num_players : el número de jugadores.
env.state_shape : la forma del espacio de estado de las observaciones.
Env.Action_Shape : la forma de las características de acción (la acción de Dou Dizhu puede codificarse como características)

¿Qué es el estado en Rlcard?

El estado es un diccionario de Python. Consiste en state['obs'] , state['legal_actions'] , state['raw_obs'] y state['raw_legal_actions'] .

Interfaces básicas

Las siguientes interfaces proporcionan un uso básico. Es fácil de usar, pero tiene asumencias en el agente. El agente debe seguir la plantilla del agente.

Env.Set_Agents (Agentes) : agents es una lista de objeto de Agent . La longitud de la lista debe ser igual al número de jugadores en el juego.
env.run (is_training = false) : ejecute un juego completo y devuelva trayectorias y pagos. La función se puede usar después de que se llame al set_agents . Si is_training es True , usará la función step en el agente para jugar el juego. Si is_training es False , se llamará eval_step .

Interfaces avanzadas

Para el uso avanzado, las siguientes interfaces permiten operaciones flexibles en el árbol de juegos. Estas interfaces no hacen ninguna suposición en el agente.

env.reset () : inicializa un juego. Devuelve el estado y la identificación del primer jugador.
env.step (acción, raw_action = false) : da un paso en el entorno. action puede ser acción o entero en bruto; raw_action debe ser True si la acción es Acción Raw (String).
env.step_back () : disponible solo cuando allow_step_back es True . Da un paso hacia atrás. Esto se puede utilizar para algoritmos que funcionan en el árbol de juego, como CFR (muestreo de Chance).
env.is_over () : return True si el juego actual ha terminado. Otro, devuelve False .
env.get_player_id () : devuelva la ID del reproductor del reproductor actual.
env.get_state (jugador_id) : devuelva el estado que corresponde a player_id .
env.get_payoffs () : al final del juego, devuelva una lista de pagos para todos los jugadores.
env.get_perfect_information () : (actualmente solo admite algunos de los juegos) obtenga la información perfecta en el estado actual.

Estructura de biblioteca

Los propósitos de los módulos principales se enumeran como a continuación:

/Ejemplos: Ejemplos de uso de Rlcard.
/Docios: documentación de Rlcard.
/Pruebas: Prueba de scripts para RLCARD.
/Rlcard/Agentes: algoritmos de aprendizaje de refuerzo y agentes humanos.
/rlcard/envs: envoltorios ambientales (representación estatal, codificación de acción, etc.)
/rlcard/juegos: varios motores de juego.
/Rlcard/Modelos: zoológico del modelo que incluye modelos previamente capacitados y modelos de reglas.

Más documentos

Para obtener más documentación, consulte los documentos para las presentaciones generales. Los documentos API están disponibles en nuestro sitio web.

Que contribuye

¡La contribución a este proyecto es muy apreciada! Cree un problema para comentarios/errores. Si desea contribuir con códigos, consulte la guía de contribución. Si tiene alguna pregunta, comuníquese con Daochen Zha con [email protected].