TensorRTダウンロードTensorRTソースコードのダウンロード

TensorRT

パイソン

v2.5.0

ダウンロード

Torch-Tensorrt

Nvidiaプラットフォーム上のPytorchモデルに最適な推論パフォーマンスを簡単に実現できます。

Torch-Tensorrtは、Tensortの力をPytorchにもたらします。 1行のコードでの熱心な実行と比較して、推論の遅延を最大5倍加速します。

インストール

Torch-Tensorrtの安定したバージョンはPypiで公開されています

pip install torch-tensorrt

Torch-Tensorrtの夜間バージョンは、Pytorchパッケージインデックスに公開されています

pip install --pre torch-tensorrt --index-url https://download.pytorch.org/whl/nightly/cu124

Torch-Tensorrtは、適切なバージョンと例を含むすべての依存関係を備えた、すぐに運営されているNvidia NGC Pytorchコンテナにも配布されています。

より高度なインストール方法については、こちらをご覧ください

クイックスタート

オプション1：torch.compile

torch.compileを使用する場所では、Torch-Tensorrtを使用できます。

 import torch
import torch_tensorrt

model = MyModel (). eval (). cuda () # define your model here
x = torch . randn (( 1 , 3 , 224 , 224 )). cuda () # define what the inputs to the model will look like

optimized_model = torch . compile ( model , backend = "tensorrt" )
optimized_model ( x ) # compiled on first run

optimized_model ( x ) # this will be fast!

オプション2：エクスポート

Torch-Tensorrtは、Modelを早期に最適化したり、C ++環境で展開したりする場合は、最適化されたモジュールをシリアル化するエクスポートスタイルのワークフローを提供します。このモジュールは、PytorchまたはLibtorch（つまり、Python依存関係なし）で展開できます。

ステップ1：最適化 +シリアル化

 import torch
import torch_tensorrt

model = MyModel (). eval (). cuda () # define your model here
inputs = [ torch . randn (( 1 , 3 , 224 , 224 )). cuda ()] # define a list of representative inputs here

trt_gm = torch_tensorrt . compile ( model , ir = "dynamo" , inputs = inputs )
torch_tensorrt . save ( trt_gm , "trt.ep" , inputs = inputs ) # PyTorch only supports Python runtime for an ExportedProgram. For C++ deployment, use a TorchScript file
torch_tensorrt . save ( trt_gm , "trt.ts" , output_format = "torchscript" , inputs = inputs )

ステップ2：展開

Pytorchでの展開：

 import torch
import torch_tensorrt

inputs = [ torch . randn (( 1 , 3 , 224 , 224 )). cuda ()] # your inputs go here

# You can run this in a new python session!
model = torch . export . load ( "trt.ep" ). module ()
# model = torch_tensorrt.load("trt.ep").module() # this also works
model ( * inputs )

C ++での展開：

# include " torch/script.h "
# include " torch_tensorrt/torch_tensorrt.h "

auto trt_mod = torch::jit::load( " trt.ts " );
auto input_tensor = [...]; // fill this with your inputs
auto results = trt_mod.forward({input_tensor});

さらなるリソース

コードの1行で最大50％速い安定した拡散推論
トーチ・テンソルトで顔を抱きしめてLLMを最適化する[すぐに来る]
Torch-Tensorrtを使用してFP8でモデルを実行します
グラフのブレークを解決してパフォーマンスを高めるためのツール[すぐに来る]
テクノロジートーク（GTC '23）
ドキュメント

プラットフォームサポート

プラットフォーム	サポート
Linux AMD64 / GPU	サポート
Windows / GPU	サポート（ダイナモのみ）
Linux AARCH64 / GPU	Jetpack-4.4+でサポートされているネイティブコンパイル（当面はv1.0.0を使用）
Linux AARCH64 / DLA	Jetpack-4.4+でサポートされているネイティブコンパイル（当面はv1.0.0を使用）
Linux PPC64LE / GPU	サポートされていません

注：JetPackのPytorchライブラリのNVIDIA L4T Pytorch NGCコンテナを参照してください。

依存関係

これらは、テストケースの検証に使用される次の依存関係です。 Torch-Tensorrtは他のバージョンで動作することができますが、テストは合格することは保証されていません。

バゼル6.3.2
libtorch 2.5.0.dev（最新の夜間）（CUDA 12.4で構築）
CUDA 12.4
Tensort 10.6.0.26

非推奨ポリシー

非推奨は、いくつかのAPIとツールが使用することを推奨しなくなったことを開発者に通知するために使用されます。バージョン2.3から始めて、Torch-Tensorrtには次の非推奨ポリシーがあります。

非推奨通知は、リリースノートで伝えられています。非推奨API関数は、廃止されたときにドキュメントを記録するソースに声明を発表します。非推奨の方法とクラスは、使用されている場合、実行時に非推奨警告を発します。 Torch-Tensorrtは、非難の後6ヶ月の移住期間を提供します。 APIとツールは、移行期間中も機能し続けます。移行期間が終了した後、APIとツールはセマンティックバージョンと一致する方法で削除されます。