d3rlpy Download - d3rlpy Source Code Download

d3rlpy

ular piton

v2.7.0

Unduh

D3Rlpy: Perpustakaan Pembelajaran Penguatan Deep Offline

D3Rlpy adalah perpustakaan pembelajaran penguatan mendalam offline untuk para praktisi dan peneliti.

 import d3rlpy

dataset , env = d3rlpy . datasets . get_dataset ( "hopper-medium-v0" )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = "cuda:0" )

# train offline
sac . fit ( dataset , n_steps = 1000000 )

# train online
sac . fit_online ( env , n_steps = 1000000 )

# ready to control
actions = sac . predict ( x )

Dokumentasi: https://d3rlpy.readthedocs.io
Kertas: https://arxiv.org/abs/2111.03788

Penting

V2.xx memperkenalkan perubahan yang melanggar. Jika Anda masih tetap berpegang pada v1.xx, silakan instal secara eksplisit versi sebelumnya (misalnya pip install d3rlpy==1.1.1 ).

Fitur utama

⚡ Perpustakaan RL paling praktis

Offline RL : D3Rlpy mendukung algoritma RL offline canggih. Offline RL sangat kuat ketika interaksi online tidak layak selama pelatihan (misalnya robotika, medis).
RL Online : D3Rlpy juga mendukung algoritma pelatihan online canggih konvensional tanpa kompromi, yang berarti Anda dapat menyelesaikan segala jenis masalah RL hanya dengan d3rlpy .

? API ramah pengguna

Zero-Knowledge dari DL Library : D3Rlpy menyediakan banyak algoritma canggih melalui API intuitif. Anda bisa menjadi insinyur RL bahkan tanpa mengetahui cara menggunakan perpustakaan pembelajaran yang mendalam.
Dokumentasi yang luas : D3Rlpy sepenuhnya didokumentasikan dan disertai dengan tutorial dan skrip reproduksi dari makalah asli.

Di luar canggih

Fungsi Q Distribusi : D3Rlpy adalah perpustakaan pertama yang mendukung fungsi Q distribusi dalam semua algoritma. Fungsi q distribusi dikenal sebagai metode yang sangat kuat untuk mencapai kinerja canggih.
Pelatihan Terdistribusi Data-Prallel : D3Rlpy adalah perpustakaan pertama yang mendukung pelatihan RL offline yang didistribusikan paralel data, yang memungkinkan Anda meningkatkan RL offline dengan beberapa GPU atau node. Lihat contoh.

Instalasi

D3Rlpy mendukung Linux, MacOS, dan Windows.

Dependensi

Menginstal Paket D3Rlpy akan menginstal atau meningkatkan paket berikut untuk memenuhi persyaratan:

obor> = 2.5.0
TQDM> = 4.66.3
gym> = 0.26.0
Gymnasium> = 1.0.0
klik
Colorama
Dataclasses-json
h5py
Struktur
ekstensi pengetikan
scikit-learn

Pypi (disarankan)

 $ pip install d3rlpy

Anaconda

 $ conda install conda-forge/noarch::d3rlpy

Buruh pelabuhan

 $ docker run -it --gpus all --name d3rlpy takuseno/d3rlpy:latest bash

Algoritma yang didukung

algoritma	kontrol diskrit	Kontrol Berkelanjutan
Kloning perilaku (pembelajaran yang diawasi)	✅	✅
Iterasi Q Neural Fitted (NFQ)	✅	⛔
Deep Q-Network (DQN)	✅	⛔
DQN ganda	✅	⛔
Gradien Kebijakan Deterministik Deep (DDPG)	⛔	✅
Twin menunda gradien kebijakan deterministik mendalam (TD3)	⛔	✅
Soft Actor-Critic (SAC)	✅	✅
Batch dibatasi Q-learning (BCQ)	✅	✅
Pengurangan akumulasi kesalahan bootstrap (beruang)	⛔	✅
Konservatif Q-Learning (CQL)	✅	✅
Keuntungan aktor-kritik tertimbang (AWAC)	⛔	✅
Critic Reguralized Regression (CRR)	⛔	✅
Kebijakan dalam Laten Action Space (PLAS)	⛔	✅
TD3+BC	⛔	✅
Policy Regregurisasi dengan Dataset Constraint (PRDC)	⛔	✅
Qu-learning implisit (IQL)	⛔	✅
Qualibrasi Q-Learning (Cal-QL)	⛔	✅
Rebrac	⛔	✅
Transformator Keputusan	✅	✅
Gato	?	?

Fungsi Q didukung

Fungsi Q Standar
Regresi kuantil
Jaringan kuantil implisit

Hasil benchmark

D3Rlpy dibandingkan untuk memastikan kualitas implementasi. Skrip benchmark tersedia direktori reproduksi. Hasil benchmark tersedia repositori D3Rlpy-Benchmarks.

Contoh

Mujoco

 import d3rlpy

# prepare dataset
dataset , env = d3rlpy . datasets . get_d4rl ( 'hopper-medium-v0' )

# prepare algorithm
cql = d3rlpy . algos . CQLConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# train
cql . fit (
    dataset ,
    n_steps = 100000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env )},
)

Lihat lebih banyak kumpulan data di D4RL.

Atari 2600

 import d3rlpy

# prepare dataset (1% dataset)
dataset , env = d3rlpy . datasets . get_atari_transitions (
    'breakout' ,
    fraction = 0.01 ,
    num_stack = 4 ,
)

# prepare algorithm
cql = d3rlpy . algos . DiscreteCQLConfig (
    observation_scaler = d3rlpy . preprocessing . PixelObservationScaler (),
    reward_scaler = d3rlpy . preprocessing . ClipRewardScaler ( - 1.0 , 1.0 ),
    compile_graph = True ,
). create ( device = 'cuda:0' )

# start training
cql . fit (
    dataset ,
    n_steps = 1000000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env , epsilon = 0.001 )},
)

Lihat lebih banyak dataset Atari di D4RL-ATARI.

Pelatihan online

 import d3rlpy
import gym

# prepare environment
env = gym . make ( 'Hopper-v3' )
eval_env = gym . make ( 'Hopper-v3' )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# prepare replay buffer
buffer = d3rlpy . dataset . create_fifo_replay_buffer ( limit = 1000000 , env = env )

# start training
sac . fit_online ( env , buffer , n_steps = 1000000 , eval_env = eval_env )

Tutorial

Coba Cartpole Contoh di Google Colaboratory!

Tutorial RL offline:
Tutorial RL Online:

Dokumentasi tutorial lebih banyak tersedia di sini.

Kontribusi

Segala jenis kontribusi untuk D3Rlpy akan sangat dihargai! Silakan periksa panduan kontribusi.

Masyarakat

Saluran	Link
Masalah	Masalah GitHub

Penting

Harap jangan mengirim email ke kontributor termasuk pemilik proyek ini untuk meminta dukungan teknis. Email seperti itu akan diabaikan tanpa membalas pesan Anda. Gunakan masalah GitHub untuk melaporkan masalah Anda.

Proyek Menggunakan D3Rlpy

Proyek	Keterangan
Minerva	Alat GUI out-of-the-box untuk Offline RL
SCOPE-RL	Perpustakaan evaluasi dan seleksi off-kebijakan

Peta jalan

Roadmap to the Future Rilis tersedia di Roadmap.md.

Kutipan

Makalah ini tersedia di sini.

 @article{d3rlpy,
  author  = {Takuma Seno and Michita Imai},
  title   = {d3rlpy: An Offline Deep Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2022},
  volume  = {23},
  number  = {315},
  pages   = {1--20},
  url     = {http://jmlr.org/papers/v23/22-0017.html}
}

Pengakuan

Pekerjaan ini dimulai sebagai bagian dari proyek Ph.D Takuma Seno di Keio University pada tahun 2020.

Pekerjaan ini didukung oleh Badan Promosi Informasi-Teknologi, Jepang (IPA), Proyek Sumber Daya Manusia IT Eksplorasi (Program MITOU) pada tahun fiskal 2020.

Memperluas

Informasi Tambahan

Versi v2.7.0
Tipe ular piton
Waktu Pembaruan 2025-07-14
ukuran 3.47MB
Berasal dari Github

Aplikasi Terkait

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Alat bagan data sumber terbuka Redash v24.10.0

2024-11-27
platform visualisasi data smartchart v6.9

2024-11-27
Alat pengujian beban belalang v2.32.0

2024-11-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
datamule python

ular piton
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua