ดาวน์โหลด TensorRT - ดาวน์โหลดซอร์สโค้ด TensorRT

TensorRT

หลาม

v2.5.0

ดาวน์โหลด

คบเพลิง

บรรลุประสิทธิภาพการอนุมานที่ดีที่สุดสำหรับโมเดล Pytorch บนแพลตฟอร์ม Nvidia ได้อย่างง่ายดาย

Torch-Tensorrt นำพลังของ Tensorrt ไปยัง Pytorch เร่งการตอบสนองการอนุมานมากถึง 5x เมื่อเทียบกับการดำเนินการที่กระตือรือร้นในรหัสเพียงบรรทัดเดียว

การติดตั้ง

Torch-Tensorrt รุ่นเสถียรถูกเผยแพร่บน PYPI

pip install torch-tensorrt

Torch-Tensorrt เวอร์ชันทุกคืนถูกเผยแพร่บนดัชนีแพ็คเกจ Pytorch

pip install --pre torch-tensorrt --index-url https://download.pytorch.org/whl/nightly/cu124

Torch-Tensorrt ยังมีการกระจายในคอนเทนเนอร์ Pytorch NVIDIA NVIDIA NGC ที่พร้อมใช้งานซึ่งมีการพึ่งพาทั้งหมดที่มีเวอร์ชันที่เหมาะสมและสมุดบันทึกตัวอย่างรวมอยู่ด้วย

สำหรับวิธีการติดตั้งขั้นสูงเพิ่มเติมโปรดดูที่นี่

เร็ว

ตัวเลือกที่ 1: Torch.compile

คุณสามารถใช้ Torch-Tensorrt ได้ทุกที่ที่คุณใช้ torch.compile :

 import torch
import torch_tensorrt

model = MyModel (). eval (). cuda () # define your model here
x = torch . randn (( 1 , 3 , 224 , 224 )). cuda () # define what the inputs to the model will look like

optimized_model = torch . compile ( model , backend = "tensorrt" )
optimized_model ( x ) # compiled on first run

optimized_model ( x ) # this will be fast!

ตัวเลือกที่ 2: ส่งออก

หากคุณต้องการเพิ่มประสิทธิภาพโมเดลของคุณล่วงหน้าและ/หรือปรับใช้ในสภาพแวดล้อม C ++ Torch-Tensorrt จะให้เวิร์กโฟลว์สไตล์การส่งออกที่ทำให้โมดูลที่ดีที่สุด โมดูลนี้สามารถปรับใช้ใน pytorch หรือกับ libtorch (เช่นไม่มีการพึ่งพา python)

ขั้นตอนที่ 1: เพิ่มประสิทธิภาพ + serialize

 import torch
import torch_tensorrt

model = MyModel (). eval (). cuda () # define your model here
inputs = [ torch . randn (( 1 , 3 , 224 , 224 )). cuda ()] # define a list of representative inputs here

trt_gm = torch_tensorrt . compile ( model , ir = "dynamo" , inputs = inputs )
torch_tensorrt . save ( trt_gm , "trt.ep" , inputs = inputs ) # PyTorch only supports Python runtime for an ExportedProgram. For C++ deployment, use a TorchScript file
torch_tensorrt . save ( trt_gm , "trt.ts" , output_format = "torchscript" , inputs = inputs )

ขั้นตอนที่ 2: ปรับใช้

การปรับใช้ใน Pytorch:

 import torch
import torch_tensorrt

inputs = [ torch . randn (( 1 , 3 , 224 , 224 )). cuda ()] # your inputs go here

# You can run this in a new python session!
model = torch . export . load ( "trt.ep" ). module ()
# model = torch_tensorrt.load("trt.ep").module() # this also works
model ( * inputs )

การปรับใช้ใน C ++:

# include " torch/script.h "
# include " torch_tensorrt/torch_tensorrt.h "

auto trt_mod = torch::jit::load( " trt.ts " );
auto input_tensor = [...]; // fill this with your inputs
auto results = trt_mod.forward({input_tensor});

ทรัพยากรเพิ่มเติม

การอนุมานการแพร่กระจายที่เสถียรมากถึง 50% ด้วยรหัสหนึ่งบรรทัด
เพิ่มประสิทธิภาพ LLMs จากการกอดใบหน้าด้วย Torch-Tensorrt [เร็ว ๆ นี้]
เรียกใช้โมเดลของคุณใน FP8 ด้วย Torch-Tensorrt
เครื่องมือในการแก้ไขการแบ่งกราฟและเพิ่มประสิทธิภาพ [เร็ว ๆ นี้]
Tech Talk (GTC '23)
เอกสาร

การสนับสนุนแพลตฟอร์ม

แพลตฟอร์ม	สนับสนุน
Linux AMD64 / GPU	ที่ได้รับการสนับสนุน
windows / gpu	รองรับ (ไดนาโมเท่านั้น)
Linux Aarch64 / GPU	การรวบรวมดั้งเดิมรองรับ Jetpack-4.4+ (ใช้ v1.0.0 ในขณะนี้)
Linux Aarch64 / DLA	การรวบรวมดั้งเดิมรองรับ Jetpack-4.4+ (ใช้ v1.0.0 ในขณะนี้)
Linux PPC64LE / GPU	ไม่รองรับ

หมายเหตุ: อ้างอิง Nvidia L4T Pytorch NGC คอนเทนเนอร์สำหรับไลบรารี Pytorch บน Jetpack

การพึ่งพาอาศัยกัน

นี่คือการพึ่งพาต่อไปนี้ที่ใช้ในการตรวจสอบการทดสอบ Torch-Tensorrt สามารถทำงานร่วมกับเวอร์ชันอื่นได้ แต่การทดสอบไม่รับประกันว่าจะผ่าน

Bazel 6.3.2
Libtorch 2.5.0.dev (ล่าสุดทุกคืน) (สร้างด้วย Cuda 12.4)
Cuda 12.4
Tensorrt 10.6.0.26

นโยบายการคัดค้าน

การคัดค้านใช้เพื่อแจ้งให้นักพัฒนาทราบว่า API และเครื่องมือบางอย่างไม่แนะนำให้ใช้อีกต่อไป เริ่มต้นด้วยเวอร์ชัน 2.3 Torch-Tensorrt มีนโยบายการคัดค้านต่อไปนี้:

ประกาศการคัดค้านได้รับการสื่อสารในบันทึกย่อการเปิดตัว ฟังก์ชั่น API ที่เลิกใช้แล้วจะมีคำแถลงในการจัดทำเอกสารต้นฉบับเมื่อพวกเขาเลิกใช้แล้ว วิธีการและชั้นเรียนที่เลิกใช้แล้วจะออกคำเตือนการเสื่อมราคาที่รันไทม์หากใช้ Torch-Tensorrt ให้ระยะเวลาการโยกย้าย 6 เดือนหลังจากการคัดค้าน APIs และเครื่องมือยังคงทำงานต่อไปในช่วงระยะเวลาการโยกย้าย หลังจากระยะเวลาการย้ายถิ่นสิ้นสุดลง API และเครื่องมือจะถูกลบออกในลักษณะที่สอดคล้องกับการกำหนดเวอร์ชันความหมาย