Descarga d3rlpy - Descargar código fuente d3rlpy

d3rlpy

Pitón

v2.7.0

Descargar

D3RLPY: una biblioteca de aprendizaje de refuerzo profundo fuera de línea

D3RLPY es una biblioteca de aprendizaje de refuerzo profundo fuera de línea para profesionales e investigadores.

 import d3rlpy

dataset , env = d3rlpy . datasets . get_dataset ( "hopper-medium-v0" )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = "cuda:0" )

# train offline
sac . fit ( dataset , n_steps = 1000000 )

# train online
sac . fit_online ( env , n_steps = 1000000 )

# ready to control
actions = sac . predict ( x )

Documentación: https://d3rlpy.readthedocs.io
Documento: https://arxiv.org/abs/2111.03788

Importante

V2.xx introduce cambios de ruptura. Si todavía se adhiere a v1.xx, instale explícitamente versiones anteriores (por ejemplo, pip install d3rlpy==1.1.1 ).

Características clave

⚡ La mayoría de la biblioteca RL más práctica de la historia

RL fuera de línea : D3RLPY admite algoritmos RL fuera de línea de última generación. Offline RL es extremadamente poderoso cuando la interacción en línea no es factible durante la capacitación (por ejemplo, robótica, médica).
RL en línea : D3RLPY también admite algoritmos de capacitación en línea convencionales de última generación sin comprometer, lo que significa que puede resolver cualquier tipo de problemas de RL solo con d3rlpy .

? API fácil de usar

El conocimiento cero de la biblioteca DL : D3RLPY proporciona muchos algoritmos de última generación a través de API intuitivas. Puede convertirse en ingeniero de RL incluso sin saber cómo usar bibliotecas de aprendizaje profundo.
Documentación extensa : D3RLPY está completamente documentada y acompañada de tutoriales y scripts de reproducción de los documentos originales.

Más allá de la vanguardia

Función Q Distributional : D3RLPY es la primera biblioteca que admite funciones de Q de distribución en todos los algoritmos. La función Q distributiva se conoce como el método muy poderoso para lograr el estado del rendimiento.
Capacitación distribuida pralentina de datos : D3RLPY es la primera biblioteca que admite la capacitación RL distribuida de datos y paralelo de datos fuera de línea, lo que le permite ampliar RL fuera de línea con múltiples GPU o nodos. Ver ejemplo.

Instalación

D3RLPY admite Linux, MacOS y Windows.

Dependencias

La instalación del paquete D3RLPY instalará o actualizará los siguientes paquetes para satisfacer los requisitos:

antorcha> = 2.5.0
tqdm> = 4.66.3
gimnasio> = 0.26.0
gimnasio> = 1.0.0
hacer clic
colorama
dataclasses-json
H5py
structlog
extensiones de mecanografía
lear

Pypi (recomendado)

 $ pip install d3rlpy

Anaconda

 $ conda install conda-forge/noarch::d3rlpy

Estibador

 $ docker run -it --gpus all --name d3rlpy takuseno/d3rlpy:latest bash

Algoritmos compatibles

algoritmo	control discreto	control continuo
Clonación de comportamiento (aprendizaje supervisado)	✅	✅
Iteración Q ajustada neural (NFQ)	✅	⛔
Profunda Q-Network (DQN)	✅	⛔
Doble dqn	✅	⛔
Gradientes de políticas deterministas profundos (DDPG)	⛔	✅
Twin Dethered Detep Deterministic Policy Gradient (TD3)	⛔	✅
Actor suave-crítico (SAC)	✅	✅
El lote restricionado Q-learning (BCQ)	✅	✅
Reducción de acumulación de errores de arranque (oso)	⛔	✅
Conservador Q-learning (CQL)	✅	✅
Ventaja actor ponderado-crítico (AWAC)	⛔	✅
Regresión regalizada crítica (CRR)	⛔	✅
Política en el espacio de acción latente (PLAS)	⛔	✅
TD3+BC	⛔	✅
Regularización de políticas con restricción de conjunto de datos (PRDC)	⛔	✅
Implícito Q-learning (IQL)	⛔	✅
Q-learning calibrado (Cal-QL)	⛔	✅
ReBRAC	⛔	✅
Transformador de decisión	✅	✅
Gato	?	?

Funciones Q compatibles

función Q estándar
Regresión cuantil
Red cuantil implícita

Resultados de referencia

D3RLPY está en referencia para garantizar la calidad de implementación. Los scripts de referencia están disponibles Directorio de reproducciones. Los resultados de referencia están disponibles D3RLPY-Benchmarks Repository.

Ejemplos

Mujoco

 import d3rlpy

# prepare dataset
dataset , env = d3rlpy . datasets . get_d4rl ( 'hopper-medium-v0' )

# prepare algorithm
cql = d3rlpy . algos . CQLConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# train
cql . fit (
    dataset ,
    n_steps = 100000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env )},
)

Ver más conjuntos de datos en D4RL.

Atari 2600

 import d3rlpy

# prepare dataset (1% dataset)
dataset , env = d3rlpy . datasets . get_atari_transitions (
    'breakout' ,
    fraction = 0.01 ,
    num_stack = 4 ,
)

# prepare algorithm
cql = d3rlpy . algos . DiscreteCQLConfig (
    observation_scaler = d3rlpy . preprocessing . PixelObservationScaler (),
    reward_scaler = d3rlpy . preprocessing . ClipRewardScaler ( - 1.0 , 1.0 ),
    compile_graph = True ,
). create ( device = 'cuda:0' )

# start training
cql . fit (
    dataset ,
    n_steps = 1000000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env , epsilon = 0.001 )},
)

Ver más conjuntos de datos Atari en D4RL-Atari.

Capacitación en línea

 import d3rlpy
import gym

# prepare environment
env = gym . make ( 'Hopper-v3' )
eval_env = gym . make ( 'Hopper-v3' )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# prepare replay buffer
buffer = d3rlpy . dataset . create_fifo_replay_buffer ( limit = 1000000 , env = env )

# start training
sac . fit_online ( env , buffer , n_steps = 1000000 , eval_env = eval_env )

Tutoriales

¡Pruebe ejemplos de Cartpole en Google Colaboratory!

Tutorial RL fuera de línea:
Tutorial RL en línea:

Aquí hay más documentos de tutoriales disponibles.

Contribuciones

¡Cualquier tipo de contribución a D3RLPY sería muy apreciada! Consulte la guía de contribución.

Comunidad

Canal	Enlace
Asuntos	Problemas de Github

Importante

No envíe un correo electrónico a ningún contribuyente, incluido el propietario de este proyecto para solicitar soporte técnico. Dichos correos electrónicos serán ignorados sin responder a su mensaje. Use problemas de GitHub para informar sus problemas.

Proyectos utilizando D3RLPY

Proyecto	Descripción
MINERVA	Una herramienta GUI lista para usar para RL fuera de línea
Alcance	Una biblioteca de evaluación y selección de polvo fuera de política

Hoja de ruta

El lanzamiento de la hoja de ruta para el futuro está disponible en Roadmap.md.

Citación

El papel está disponible aquí.

 @article{d3rlpy,
  author  = {Takuma Seno and Michita Imai},
  title   = {d3rlpy: An Offline Deep Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2022},
  volume  = {23},
  number  = {315},
  pages   = {1--20},
  url     = {http://jmlr.org/papers/v23/22-0017.html}
}

Reconocimiento

Este trabajo comenzó como parte del proyecto Ph.D de Takuma Seno en la Universidad de Keio en 2020.

Este trabajo está respaldado por la Agencia de Promoción de Tecnología de la Información, Japón (IPA), Proyecto Exploratorio de Recursos Humanos de TI (Programa MITOU) en el año fiscal 2020.

Expandir

Información adicional

Versión v2.7.0
Tipo Pitón
Fecha de actualización 2025-07-14
tamaño 3.47MB
Proviene de Github

Aplicaciones relacionadas

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Herramienta de gráficos de datos de código abierto Redash v24.10.0

2024-11-27
datamule python

2024-11-08
plataforma de visualización de datos smartchart v6.9

2024-11-27
Herramienta de prueba de carga de langosta v2.32.0

2024-11-27

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
datamule python

Pitón
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo