tensorrt cpp api ดาวน์โหลด - tensorrt cpp api ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

tensorrt cpp api

ซี/ซี++

1.0.0

ดาวน์โหลด

โลโก้

บทช่วยสอน Tensorrt C ++ API

วิธีใช้ Tensorrt C ++ API สำหรับการอนุมานการเรียนรู้ของเครื่อง GPU ที่มีประสิทธิภาพสูง
รองรับโมเดลที่มีอินพุตเดี่ยว / หลายตัวและเอาต์พุตเดี่ยว / หลายรายการด้วยการแบตช์

วิดีโอภาพรวมโครงการ รหัสวิดีโอดำน้ำลึก

กำลังมองหาผู้ดูแล

โครงการนี้กำลังมองหาผู้ดูแลเพื่อช่วยเป็นแนวทางในการเติบโตและการปรับปรุง หากคุณหลงใหลในโครงการนี้และสนใจที่จะมีส่วนร่วมฉันชอบที่จะได้ยินจากคุณ!

โปรดอย่าลังเลที่จะติดต่อผ่าน LinkedIn เพื่อหารือเกี่ยวกับวิธีการมีส่วนร่วม

Tensorrt C ++ Tutorial

ฉันอ่านเอกสาร Nvidia Tensorrt ทั้งหมดเพื่อที่คุณจะได้ไม่ต้องทำ!

โครงการนี้แสดงให้เห็นถึงวิธีการใช้ Tensorrt C ++ API สำหรับการอนุมาน GPU ประสิทธิภาพสูงในข้อมูลภาพ ครอบคลุมวิธีการทำสิ่งต่อไปนี้:

วิธีการติดตั้ง Tensorrt 10 บน Ubuntu 20.04 / 22.04
วิธีการสร้างไฟล์เอ็นจิ้น Tensorrt ที่ได้รับการปรับให้เหมาะสมสำหรับ GPU ของคุณ
วิธีระบุโปรไฟล์การเพิ่มประสิทธิภาพอย่างง่าย
วิธีเรียกใช้ FP32, FP16 หรือ INT8 การอนุมานความแม่นยำ
วิธีการอ่าน / เขียนข้อมูลจาก / เข้าสู่หน่วยความจำ GPU และทำงานกับรูปภาพ GPU
วิธีใช้ CUDA สตรีมเพื่อเรียกใช้การอนุมานแบบ async และซิงโครไนซ์ในภายหลัง
วิธีการทำงานกับโมเดลที่มีขนาดแบบคงที่และแบบไดนามิก
วิธีการทำงานกับโมเดลที่มีเทนเซอร์เดี่ยวหรือหลายตัว
วิธีการทำงานกับโมเดลที่มีอินพุตหลายอินพุต
รวมถึงการแนะนำวิดีโอที่ฉันอธิบายรหัสทุกบรรทัด
รหัสสามารถใช้เป็นฐานสำหรับรุ่นใด ๆ ที่ใช้ภาพขนาด / ภาพคงที่เป็นอินพุตรวมถึง InsightFace Arcface, YOLOV8, การตรวจจับใบหน้า SCRFD
- คุณจะต้องใช้รหัสหลังการประมวลผลที่เหมาะสม
TODO: เพิ่มการสนับสนุนสำหรับรุ่นที่มีรูปร่างอินพุตแบบไดนามิก
TODO: เพิ่มการสนับสนุนสำหรับ Windows

เริ่มต้น

คำแนะนำต่อไปนี้ถือว่าคุณใช้ Ubuntu 20.04 หรือ 22.04 คุณจะต้องจัดหาโมเดล ONNX ของคุณเองสำหรับโค้ดตัวอย่างนี้หรือคุณสามารถดาวน์โหลดโมเดลตัวอย่าง (ดูส่วนตรวจสอบความปลอดภัยด้านล่าง)

ข้อกำหนดเบื้องต้น

ทดสอบและทำงานกับ Ubuntu 20.04 และ 22.04 ( ไม่ รองรับ Windows ในเวลานี้)
ติดตั้ง cuda 11 หรือ 12 คำแนะนำที่นี่
- แนะนำ> = 12.0
- จำเป็น> = 11.0
ติดตั้ง Cudnn คำแนะนำที่นี่
- จำเป็น> = 8
- จำเป็น <9 (OpenCV GPU ยังไม่รองรับ)
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev (สำหรับการบันทึก)
ติดตั้ง OpenCV ด้วยการสนับสนุน CUDA ในการรวบรวม OpenCV จากแหล่งที่มาให้เรียกใช้สคริปต์ build_opencv.sh ที่ให้ไว้ใน ./scripts/ /
- หากคุณใช้สคริปต์ที่ให้ไว้และคุณได้ติดตั้ง cudnn ไปยังตำแหน่งที่ไม่ได้มาตรฐานคุณต้องแก้ไขตัวแปร CUDNN_INCLUDE_DIR และ CUDNN_LIBRARY ในสคริปต์
- แนะนำ> = 4.8
ดาวน์โหลด Tensorrt 10 จากที่นี่
- จำเป็น> = 10.0
นำทางไปยังไฟล์ CMakeLists.txt และแทนที่ TODO ด้วยเส้นทางไปยังการติดตั้ง Tensorrt ของคุณ

การสร้างห้องสมุด

mkdir build
cd build
cmake ..
make -j$(nproc)

เรียกใช้งานได้

นำทางไปยังไดเรกทอรี Build
เรียกใช้การปฏิบัติการและให้เส้นทางไปยังรุ่น ONNX ของคุณ
อดีต. ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- หมายเหตุ: ดูส่วนการตรวจสอบความปลอดภัยด้านล่างสำหรับคำแนะนำเกี่ยวกับวิธีการรับโมเดล YOLOV8N
ครั้งแรกที่คุณเรียกใช้การปฏิบัติการสำหรับรุ่นและตัวเลือกที่กำหนดไฟล์เครื่องยนต์ Tensorrt จะถูกสร้างขึ้นจากรุ่น ONNX ของคุณ กระบวนการนี้ค่อนข้างช้าและอาจใช้เวลา 5 นาทีสำหรับบางรุ่น (เช่นรุ่น YOLO)
หรือคุณสามารถเลือกที่จะจัดหาไฟล์เครื่องยนต์ tensorrt ของคุณเองโดยตรง:
อดีต. ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- หมายเหตุ: ดู V5.0 Changelog ด้านล่างสำหรับคำเตือนเมื่อจัดหาไฟล์เครื่องยนต์ Tensorrt ของคุณเอง

ตรวจสอบสติ

หากต้องการทำการตรวจสอบสติให้ดาวน์โหลดรุ่น YOLOv8n จากที่นี่
ถัดไปแปลงจาก pytorch เป็น onnx โดยใช้สคริปต์ต่อไปนี้:
- คุณจะต้องเรียกใช้ pip3 install ultralytics ก่อน

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

วางโมเดล ONNX ที่ได้ yolov8n.onnx ในไดเรกทอรี ./models/ /
การใช้การอนุมานโดยใช้โมเดลดังกล่าวและรูปภาพที่อยู่ใน ./inputs/team.jpg ควรสร้างเวกเตอร์คุณสมบัติต่อไปนี้:
- หมายเหตุ: เวกเตอร์คุณลักษณะจะไม่เหมือนกัน (แต่คล้ายกันมาก) เนื่องจาก Tensorrt ไม่ได้กำหนด

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

การอนุมาน int8

การเปิดใช้งานความแม่นยำ Int8 สามารถเพิ่มความเร็วในการอนุมานได้ด้วยค่าใช้จ่ายในการลดความแม่นยำเนื่องจากช่วงไดนามิกที่ลดลง สำหรับความแม่นยำ Int8 ผู้ใช้จะต้องจัดหาข้อมูลการสอบเทียบซึ่งเป็นตัวแทนของข้อมูลจริงที่โมเดลจะเห็น ขอแนะนำให้ใช้ภาพการสอบเทียบ 1K+ ในการเปิดใช้งานการอนุมาน INT8 กับรูปแบบการตรวจสอบ Sanity YOLOV8 ต้องดำเนินการตามขั้นตอนต่อไปนี้:

เปลี่ยนตัว options.precision = Precision::FP16; ไปยัง options.precision = Precision::INT8; ใน main.cpp
options.calibrationDataDirectoryPath = ""; จะต้องเปลี่ยนแปลงใน main.cpp เพื่อระบุเส้นทางที่มีข้อมูลการสอบเทียบ
- หากใช้โมเดล YOLOV8 ขอแนะนำให้ใช้ชุดข้อมูลการตรวจสอบ Coco ซึ่งสามารถดาวน์โหลดได้ด้วย wget http://images.cocodataset.org/zips/val2017.zip
ตรวจสอบให้แน่ใจว่ารหัสการปรับขนาดใน Int8EntropyCalibrator2::getBatch ใน engine.cpp (ดู TODO ) ถูกต้องสำหรับรุ่นของคุณ
- หากใช้โมเดล YOLOV8 รหัสการประมวลผลล่วงหน้าจะถูกต้องและไม่จำเป็นต้องเปลี่ยนแปลง
recompile เรียกใช้ปฏิบัติการ
แคชการสอบเทียบจะถูกเขียนไปยังดิสก์ (ส่วนขยาย .calibration ) เพื่อให้การปรับแต่งโมเดลที่ตามมาสามารถนำกลับมาใช้ใหม่ได้ หากคุณต้องการสร้างข้อมูลการสอบเทียบใหม่คุณต้องลบไฟล์แคชนี้
หากคุณได้รับข้อผิดพลาด "หน่วยความจำในการจัดสรรฟังก์ชั่น" คุณต้องลด Options.calibrationBatchSize เพื่อให้ทั้งชุดสามารถพอดีกับหน่วยความจำ GPU ของคุณ

เกณฑ์มาตรฐาน

เกณฑ์มาตรฐานทำงานบน RTX 3050 TI แล็ปท็อป GPU, 11th Gen Intel (R) Core (TM) I9-11900H @ 2.50GHz

แบบอย่าง	ความแม่นยำ	ขนาดแบทช์	เวลาอนุมาน AVG
yolov8n	fp32	1	4.732 ms
yolov8n	FP16	1	2.493 ms
yolov8n	int8	1	2.009 ms
YOLOV8X	fp32	1	76.63 ms
YOLOV8X	FP16	1	25.08 ms
YOLOV8X	int8	1	11.62 ms

การรวมกลุ่ม

สงสัยว่าจะรวมห้องสมุดนี้เข้ากับโครงการของคุณได้อย่างไร? หรืออาจจะอ่านผลลัพธ์ของโมเดล YOLOV8 เพื่อแยกข้อมูลที่มีความหมายได้อย่างไร? ถ้าเป็นเช่นนั้นตรวจสอบสองโครงการล่าสุดของฉัน YOLOV8-TENSORRT-CPP และ YOLOV9-TENSORRT-CPP ซึ่งแสดงให้เห็นถึงวิธีการใช้ TENSORRT C ++ API เพื่อเรียกใช้การอนุมาน YOLOV8/9 (สนับสนุนการตรวจจับวัตถุการแบ่งส่วนความหมายและการประมาณค่าร่างกาย) พวกเขาใช้ประโยชน์จากโครงการนี้ในแบ็กเอนด์!

โครงสร้างโครงการ

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

ทำความเข้าใจกับรหัส

ส่วนใหญ่ของการใช้งานอยู่ใน include/engine ฉันได้เขียนความคิดเห็นมากมายตลอดทั้งรหัสซึ่งควรทำให้ง่ายต่อการเข้าใจสิ่งที่เกิดขึ้น
รหัสการอนุมานอยู่ใน include/engine/EngineRunInference.inl
การสร้างและโหลดไฟล์เครื่องยนต์ Tensorrt อยู่ใน include/engine/EngineBuildLoadNetwork.inl
นอกจากนี้คุณยังสามารถตรวจสอบวิดีโอดำน้ำลึกของฉันที่ฉันอธิบายทุกบรรทัดของรหัส

วิธีการดีบัก

การใช้งานใช้ไลบรารี spdlog สำหรับการบันทึก คุณสามารถเปลี่ยนระดับบันทึกโดยการตั้งค่าตัวแปรสภาพแวดล้อม LOG_LEVEL เป็นหนึ่งในค่าต่อไปนี้: trace , debug , info , warn , error , critical , off
หากคุณมีปัญหาในการสร้างไฟล์เอ็นจิ้น Tensorrt จากรุ่น ONNX ให้พิจารณาการตั้งค่าตัวแปรสภาพแวดล้อม LOG_LEVEL เพื่อ trace และเรียกใช้แอปพลิเคชันอีกครั้ง สิ่งนี้ควรให้ข้อมูลเพิ่มเติมเกี่ยวกับกระบวนการบิลด์ที่ล้มเหลว

แสดงความขอบคุณ

หากโครงการนี้เป็นประโยชน์กับคุณฉันจะขอบคุณถ้าคุณสามารถให้ดาวได้ นั่นจะกระตุ้นให้ฉันให้แน่ใจว่าเป็นข้อมูลล่าสุดและแก้ไขปัญหาได้อย่างรวดเร็ว ฉันยังทำงานให้คำปรึกษาหากคุณต้องการความช่วยเหลือเพิ่มเติม เชื่อมต่อกับฉันบน LinkedIn

ผู้มีส่วนร่วม

_{loic tetrel}

_Thomaskleven

_{วิซิน}

การเปลี่ยนแปลง

v6.0

การใช้งานตอนนี้ต้องใช้ tensorrt> = 10.0

v5.0

คลาส Engine ได้รับการแก้ไขเพื่อใช้พารามิเตอร์เทมเพลตซึ่งระบุชนิดข้อมูลเอาท์พุทโมเดล ตอนนี้การใช้งานรองรับเอาต์พุตของประเภท float , __half , int8_t , int32_t , bool และ uint8_t
เพิ่มการสนับสนุนสำหรับการโหลดไฟล์เครื่องยนต์ Tensorrt โดยตรงโดยไม่จำเป็นต้องรวบรวมจากรุ่น ONNX Howver ขอแนะนำอย่างยิ่งให้คุณใช้ API ที่มีให้ในการสร้างไฟล์เครื่องยนต์จากรุ่น ONNX แทนที่จะโหลดโมเดล Tensorrt โดยตรง หากคุณเลือกที่จะโหลดไฟล์รุ่น Tensorrt โดยตรงคุณต้องตรวจสอบด้วยมือว่า Options ได้รับการตั้งค่าอย่างถูกต้องสำหรับโมเดลของคุณ (ตัวอย่างเช่นหากโมเดลของคุณได้รับการรวบรวมสำหรับ FP32 แต่คุณลองใช้การอนุมาน FP16 มันจะล้มเหลว
เพิ่มตัวแยกวิเคราะห์บรรทัดคำสั่ง

v4.1

เพิ่มการสนับสนุนสำหรับขนาดแบทช์คงที่> 1.

v4.0

เพิ่มการสนับสนุนสำหรับความแม่นยำ int8

v3.0

การใช้งานได้รับการปรับปรุงให้ใช้ Tensorrt 8.6 API (เช่น IExecutionContext::enqueueV3() )
Executable ได้เปลี่ยนชื่อจาก driver เป็น run_inference_benchmark และตอนนี้ต้องส่งผ่านเส้นทางไปยังโมเดล ONNX เป็นอาร์กิวเมนต์บรรทัดคำสั่ง
Options.doesSupportDynamicBatchSize ที่ถูกลบ การใช้งานตอนนี้ตรวจจับขนาดแบทช์ที่รองรับอัตโนมัติ
ลบ Options.maxWorkspaceSize MaxWorksPacesize การใช้งานในขณะนี้ไม่ได้ จำกัด หน่วยความจำ GPU ในระหว่างการสร้างแบบจำลองทำให้การใช้งานสามารถใช้พูลหน่วยความจำได้มากเท่าที่มีอยู่สำหรับเลเยอร์ระดับกลาง

v2.2

Serialize ชื่อรุ่นเป็นส่วนหนึ่งของไฟล์เอ็นจิ้น

v2.1

เพิ่มการสนับสนุนสำหรับรุ่นที่มีหลายอินพุต การใช้งานตอนนี้รองรับโมเดลที่มีอินพุตเดี่ยวอินพุตหลายอินพุตเอาต์พุตเดี่ยวเอาต์พุตหลายเอาต์พุตและการแบตช์

v2.0

ต้องติดตั้ง OpenCV CUDA ในการติดตั้งให้ทำตามคำแนะนำที่นี่
Options.optBatchSizes ถูกลบออกแทนที่ด้วย Options.optBatchSize OPTBATCHSIZE
สนับสนุนโมเดลที่มีมากกว่าเอาต์พุตเดียว (เช่น SCRFD)
เพิ่มการสนับสนุนสำหรับรุ่นที่ไม่รองรับการอนุมานแบทช์ (มิติอินพุตแรกได้รับการแก้ไข)
การตรวจสอบข้อผิดพลาดเพิ่มเติม
แก้ไขปัญหาทั่วไปที่ผู้คนพบกับเวอร์ชัน V1.0 ดั้งเดิม
ลบช่องว่างออกจากชื่ออุปกรณ์ GPU