download d3rlpy - download de código fonte d3rlpy

d3rlpy

Pitão

v2.7.0

Baixar

D3RLPY: uma biblioteca de aprendizado de reforço profundo offline

O D3RLPY é uma biblioteca de aprendizado de reforço profundo offline para profissionais e pesquisadores.

 import d3rlpy

dataset , env = d3rlpy . datasets . get_dataset ( "hopper-medium-v0" )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = "cuda:0" )

# train offline
sac . fit ( dataset , n_steps = 1000000 )

# train online
sac . fit_online ( env , n_steps = 1000000 )

# ready to control
actions = sac . predict ( x )

Documentação: https://d3rlpy.readthedocs.io
Papel: https://arxiv.org/abs/2111.03788

Importante

v2.xx apresenta mudanças de ruptura. Se você ainda seguir o v1.xx, instale explicitamente versões anteriores (por exemplo, pip install d3rlpy==1.1.1 ).

Principais recursos

⚡ Biblioteca RL mais prática de todos os tempos

RL offline : D3RLPY suporta algoritmos RL offline de última geração. O RL offline é extremamente poderoso quando a interação on -line não é viável durante o treinamento (por exemplo, robótica, médico).
Online RL : D3RLPY também suporta algoritmos de treinamento on-line convencionais de ponta sem comprometer, o que significa que você pode resolver qualquer tipo de problema de RL apenas com d3rlpy .

? API amigável

O conhecimento zero da biblioteca DL : D3RLPY fornece muitos algoritmos de última geração por meio de APIs intuitivas. Você pode se tornar um engenheiro RL, mesmo sem saber como usar as bibliotecas de aprendizado profundo.
Documentação extensa : o D3RLPY está totalmente documentado e acompanhado de tutoriais e scripts de reprodução dos artigos originais.

Além de última geração

Função q de distribuição : D3RLPY é a primeira biblioteca que suporta funções Q distributivas nos algoritmos todos. A função q distributiva é conhecida como o método muito poderoso para alcançar o estado do desempenho.
Treinamento distribuído por dados : D3RLPY é a primeira biblioteca que suporta treinamento offline distribuído por dados paralelo, que permite ampliar a RL offline com várias GPUs ou nós. Veja o exemplo.

Instalação

O D3RLPY suporta Linux, MacOS e Windows.

Dependências

A instalação do pacote D3RLPY instalará ou atualiza os seguintes pacotes para atender aos requisitos:

tocha> = 2.5.0
TQDM> = 4,66.3
ginásio> = 0,26.0
ginásio> = 1.0.0
clique
Colorama
Dataclasses-Json
H5py
Structlog
Extensões de digitação
Scikit-Learn

Pypi (recomendado)

 $ pip install d3rlpy

Anaconda

 $ conda install conda-forge/noarch::d3rlpy

Docker

 $ docker run -it --gpus all --name d3rlpy takuseno/d3rlpy:latest bash

Algoritmos suportados

algoritmo	controle discreto	controle contínuo
Clonagem de comportamento (aprendizado supervisionado)	✅	✅
Iteração q ajustada neural (NFQ)	✅	⛔
Deep Q-Network (DQN)	✅	⛔
Duplo dqn	✅	⛔
Gradientes políticos determinísticos profundos (DDPG)	⛔	✅
Gêmeos de Política Determinada Profunda Twin Earda (TD3)	⛔	✅
Ator mole-crítico (SAC)	✅	✅
LOTE CONCTERIDO Q-LEARNING (BCQ)	✅	✅
Redução de acumulação de erro de inicialização (Bear)	⛔	✅
Q-learning conservador (CQL)	✅	✅
Vantagem ator-crítico ponderado (AWAC)	⛔	✅
Regressão regulada crítica (CRR)	⛔	✅
Política no espaço de ação latente (PLAS)	⛔	✅
TD3+BC	⛔	✅
Regularização da política com restrição de conjunto de dados (PRDC)	⛔	✅
Q-learning implícito (IQL)	⛔	✅
Q-learning calibrado (Cal-ql)	⛔	✅
Rebrac	⛔	✅
Transformador de decisão	✅	✅
Gato	?	?

Funções Q suportadas

Função q padrão
Regressão quantil
Rede Quantil implícita

Resultados de referência

O D3RLPY é comparado para garantir a qualidade da implementação. Os scripts de referência estão disponíveis no diretório de reproduções. Os resultados de referência estão disponíveis no repositório D3RLPY-Benchmarks.

Exemplos

Mujoco

 import d3rlpy

# prepare dataset
dataset , env = d3rlpy . datasets . get_d4rl ( 'hopper-medium-v0' )

# prepare algorithm
cql = d3rlpy . algos . CQLConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# train
cql . fit (
    dataset ,
    n_steps = 100000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env )},
)

Veja mais conjuntos de dados em D4RL.

Atari 2600

 import d3rlpy

# prepare dataset (1% dataset)
dataset , env = d3rlpy . datasets . get_atari_transitions (
    'breakout' ,
    fraction = 0.01 ,
    num_stack = 4 ,
)

# prepare algorithm
cql = d3rlpy . algos . DiscreteCQLConfig (
    observation_scaler = d3rlpy . preprocessing . PixelObservationScaler (),
    reward_scaler = d3rlpy . preprocessing . ClipRewardScaler ( - 1.0 , 1.0 ),
    compile_graph = True ,
). create ( device = 'cuda:0' )

# start training
cql . fit (
    dataset ,
    n_steps = 1000000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env , epsilon = 0.001 )},
)

Veja mais conjuntos de dados Atari em D4RL-Atari.

Treinamento online

 import d3rlpy
import gym

# prepare environment
env = gym . make ( 'Hopper-v3' )
eval_env = gym . make ( 'Hopper-v3' )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# prepare replay buffer
buffer = d3rlpy . dataset . create_fifo_replay_buffer ( limit = 1000000 , env = env )

# start training
sac . fit_online ( env , buffer , n_steps = 1000000 , eval_env = eval_env )

Tutoriais

Experimente exemplos de carrinho no Google Colaboratory!

Tutorial offline RL:
Tutorial online RL:

Mais documentações tutoriais estão disponíveis aqui.

Contribuições

Qualquer tipo de contribuição para o D3RLPY seria muito apreciada! Por favor, verifique o guia de contribuição.

Comunidade

Canal	Link
Problemas	Questões do Github

Importante

Por favor, não envie um e -mail para nenhum colaborador, incluindo o proprietário deste projeto, para solicitar suporte técnico. Esses e -mails serão ignorados sem responder à sua mensagem. Use problemas do GitHub para relatar seus problemas.

Projetos usando D3RLPY

Projeto	Descrição
MINERVA	Uma ferramenta GUI pronta para uso para RL offline
Scope-rl	Uma biblioteca de avaliação e seleção fora da política

Roteiro

O roteiro para o lançamento futuro está disponível em roteiro.md.

Citação

O artigo está disponível aqui.

 @article{d3rlpy,
  author  = {Takuma Seno and Michita Imai},
  title   = {d3rlpy: An Offline Deep Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2022},
  volume  = {23},
  number  = {315},
  pages   = {1--20},
  url     = {http://jmlr.org/papers/v23/22-0017.html}
}

Reconhecimento

Este trabalho começou como parte do projeto Ph.D de Takuma Seno na Universidade Keio em 2020.

Este trabalho é apoiado pela Agência de Promoção de Tecnologia da Informação, Japão (IPA), Projeto de Recursos Humanos de TI exploratório (Programa Mitou) no ano fiscal de 2020.

Expandir

Informações adicionais

Versão v2.7.0
Tipo Pitão
Data da Última Atualização 2025-07-14
tamanho 3.47MB
Vindo de Github

Aplicativos Relacionados

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Ferramenta de gráfico de dados de código aberto Redash v24.10.0

2024-11-27
datamule python

2024-11-08
plataforma de visualização de dados smartchart v6.9

2024-11-27
Ferramenta de teste de carga Locust v2.32.0

2024-11-27

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ToDo Co

Pitão

1.0.0
Python Portfolio

Pitão
Ferramenta de gráfico de dados de código aberto Redash v24.10.0

Pitão

24.10.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos