d3rlpyダウンロードd3rlpyソースコードのダウンロード

d3rlpy

パイソン

v2.7.0

ダウンロード

D3rlpy：オフラインの深い補強学習ライブラリ

D3Rlpyは、実践者と研究者向けのオフラインの深い強化学習ライブラリです。

 import d3rlpy

dataset , env = d3rlpy . datasets . get_dataset ( "hopper-medium-v0" )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = "cuda:0" )

# train offline
sac . fit ( dataset , n_steps = 1000000 )

# train online
sac . fit_online ( env , n_steps = 1000000 )

# ready to control
actions = sac . predict ( x )

ドキュメント：https：//d3rlpy.readthedocs.io
論文：https：//arxiv.org/abs/2111.03788

重要

V2.xxは、壊れた変更を導入します。それでもV1.xxに固執する場合は、以前のバージョンを明示的にインストールしてください（例： pip install d3rlpy==1.1.1 ）。

重要な機能

otermist最も実用的なRLライブラリ

オフラインRL ：D3RLPYは、最先端のオフラインRLアルゴリズムをサポートしています。オフラインRLは、トレーニング中にオンラインインタラクションが実行不可能である場合に非常に強力です（例：Robotics、Medical）。
オンラインRL ：D3RLPYは、妥協することなく、従来の最先端のオンライントレーニングアルゴリズムもサポートしています。つまり、 d3rlpyでのみ、あらゆる種類のRL問題を解決できます。

？ユーザーフレンドリーAPI

DLライブラリのゼロ知識：D3Rlpyは、直感的なAPIを通じて多くの最先端のアルゴリズムを提供します。深い学習ライブラリの使用方法を知らなくても、RLエンジニアになることができます。
広範なドキュメント：D3RLPYには完全に文書化されており、元の論文のチュートリアルと複製スクリプトが添付されています。

最先端を超えて

分布Q関数：D3RLPYは、すべてのアルゴリズムの分布Q関数をサポートする最初のライブラリです。分布Q関数は、最先端を達成するための非常に強力な方法として知られています。
データプラル分散トレーニング：D3RLPYは、データ並列分散オフラインRLトレーニングをサポートする最初のライブラリであり、複数のGPUまたはノードでオフラインRLをスケールアップできます。例を参照してください。

インストール

D3RlpyはLinux、MacOS、Windowsをサポートしています。

依存関係

D3RLPYパッケージのインストールは、次のパッケージをインストールまたはアップグレードして要件を満たします。

トーチ> = 2.5.0
TQDM> = 4.66.3
ジム> = 0.26.0
体育館> = 1.0.0
クリック
colorama
DataClasses-JSON
H5py
structlog
タイピングエクステンション
Scikit-Learn

Pypi（推奨）

 $ pip install d3rlpy

アナコンダ

 $ conda install conda-forge/noarch::d3rlpy

Docker

 $ docker run -it --gpus all --name d3rlpy takuseno/d3rlpy:latest bash

サポートされているアルゴリズム

アルゴリズム	離散制御	継続的な制御
動作クローン（監視された学習）	✅	✅
ニューラルフィットQイテレーション（NFQ）	✅	⛔
ディープQネットワーク（DQN）	✅	⛔
ダブルDQN	✅	⛔
深い決定論的ポリシーグラデーション（DDPG）	⛔	✅
ツイン遅延深い決定論的ポリシーグラデーション（TD3）	⛔	✅
ソフト俳優 - 批評家（sac）	✅	✅
バッチ制約付きQラーニング（BCQ）	✅	✅
ブートストラップエラーの蓄積削減（BEAR）	⛔	✅
保守的なQラーニング（CQL）	✅	✅
アドバンテージの加重俳優 - critic（AWAC）	⛔	✅
批評家の退行（CRR）	⛔	✅
潜在アクションスペース（PLA）のポリシー	⛔	✅
TD3+BC	⛔	✅
データセット制約（PRDC）によるポリシーの正則化	⛔	✅
暗黙のQラーニング（IQL）	⛔	✅
キャリブレーションQラーニング（CAL-QL）	⛔	✅
rebrac	⛔	✅
意思決定トランス	✅	✅
ガト	？	？

サポートされているQ関数

標準Q関数
分位回帰
暗黙的な分位ネットワーク

ベンチマークの結果

D3Rlpyは、実装の品質を確保するためにベンチマークされています。ベンチマークスクリプトは、複製ディレクトリを使用できます。ベンチマークの結果は、d3rlpyベンチマークリポジトリを利用できます。

例

ムホコ

 import d3rlpy

# prepare dataset
dataset , env = d3rlpy . datasets . get_d4rl ( 'hopper-medium-v0' )

# prepare algorithm
cql = d3rlpy . algos . CQLConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# train
cql . fit (
    dataset ,
    n_steps = 100000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env )},
)

D4RLのデータセットを参照してください。

Atari 2600

 import d3rlpy

# prepare dataset (1% dataset)
dataset , env = d3rlpy . datasets . get_atari_transitions (
    'breakout' ,
    fraction = 0.01 ,
    num_stack = 4 ,
)

# prepare algorithm
cql = d3rlpy . algos . DiscreteCQLConfig (
    observation_scaler = d3rlpy . preprocessing . PixelObservationScaler (),
    reward_scaler = d3rlpy . preprocessing . ClipRewardScaler ( - 1.0 , 1.0 ),
    compile_graph = True ,
). create ( device = 'cuda:0' )

# start training
cql . fit (
    dataset ,
    n_steps = 1000000 ,
    evaluators = { "environment" : d3rlpy . metrics . EnvironmentEvaluator ( env , epsilon = 0.001 )},
)

D4RL-ATARIのAtariデータセットの詳細をご覧ください。

オンライントレーニング

 import d3rlpy
import gym

# prepare environment
env = gym . make ( 'Hopper-v3' )
eval_env = gym . make ( 'Hopper-v3' )

# prepare algorithm
sac = d3rlpy . algos . SACConfig ( compile_graph = True ). create ( device = 'cuda:0' )

# prepare replay buffer
buffer = d3rlpy . dataset . create_fifo_replay_buffer ( limit = 1000000 , env = env )

# start training
sac . fit_online ( env , buffer , n_steps = 1000000 , eval_env = eval_env )

チュートリアル

Google ColaboratoryでCartpoleの例を試してみてください！

オフラインRLチュートリアル：
オンラインRLチュートリアル：

その他のチュートリアルドキュメントはこちらからご覧いただけます。

貢献

D3RLPYへのあらゆる種類の貢献は非常に高く評価されます！貢献ガイドを確認してください。

コミュニティ

チャネル	リンク
問題	githubの問題

重要

このプロジェクトの所有者を含む貢献者に電子メールを送信して、テクニカルサポートを求めてください。このようなメールは、メッセージに返信することなく無視されます。 GitHubの問題を使用して問題を報告してください。

d3rlpyを使用したプロジェクト

プロジェクト	説明
ミネルバ	オフラインRL用のすぐに使用できるGUIツール
scope-rl	オフポリシーの評価と選択ライブラリ

ロードマップ

将来のリリースへのロードマップは、roadmap.mdで入手できます。

引用

紙はこちらから入手できます。

 @article{d3rlpy,
  author  = {Takuma Seno and Michita Imai},
  title   = {d3rlpy: An Offline Deep Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2022},
  volume  = {23},
  number  = {315},
  pages   = {1--20},
  url     = {http://jmlr.org/papers/v23/22-0017.html}
}