tensorrt cpp api下載tensorrt cpp api源代碼下載

tensorrt cpp api

C/C++

1.0.0

下載

Tensorrt C ++ API教程

如何使用Tensorrt C ++ API進行高性能GPU機器學習推理。
支持具有單個 /多個輸入的模型和帶有批處理的單個 /多個輸出。

項目概述視頻。代碼深度參考視頻

尋找維護者

該項目正在積極尋求維護者，以幫助指導其增長和改進。如果您對這個項目充滿熱情並且對貢獻感興趣，我很想听聽您的來信！

請隨時通過LinkedIn與您聯繫，以討論如何參與其中。

Tensorrt C ++教程

我讀了所有的nvidia tensorrt文檔，所以您不必這樣做！

該項目演示瞭如何使用Tensorrt C ++ API作為圖像數據上的高性能GPU推斷。它涵蓋瞭如何執行以下操作：

如何在Ubuntu 20.04 / 22.04上安裝Tensorrt 10。
如何生成針對GPU優化的張力引擎文件。
如何指定簡單的優化配置文件。
如何運行FP32，FP16或INT8精度推斷。
如何從 /中讀取 /寫入GPU內存並使用GPU圖像。
如何使用CUDA流進行異步推理並隨後同步。
如何與具有靜態和動態批量大小的模型一起使用。
如何使用單個或多個輸出張量的型號工作。
如何與具有多個輸入的模型一起工作。
包括一個視頻演練，我在其中解釋了每一行代碼。
該代碼可以用作任何將固定尺寸圖像 /圖像作為輸入的模型的基礎，包括Insightface Arcface，Yolov8，SCRFD面部檢測。
- 您只需要實現適當的後處理代碼即可。
TODO：添加對具有動態輸入形狀的模型的支持。
TODO：添加對Windows的支持

入門

以下說明假定您使用的是Ubuntu 20.04或22.04。您將需要為此示例代碼提供自己的ONNX模型，或者可以下載示例模型（請參見下面的SANITY檢查部分）。

先決條件

測試並在Ubuntu 20.04和22.04上工作（目前不支持Windows）
在此處安裝CUDA 11或12，說明。
- 建議> = 12.0
- 必需> = 11.0
在此處安裝Cudnn，說明。
- 必需> = 8
- 所需<9（OpenCV GPU尚未支持）
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev （用於記錄）
在CUDA支持的情況下安裝OpenCV。要從源中編譯OpenCV，請運行./scripts/中提供的build_opencv.sh腳本。
- 如果您使用提供的腳本，並且已將Cudnn安裝到非標準位置，則必須在腳本中修改CUDNN_INCLUDE_DIR和CUDNN_LIBRARY變量。
- 建議> = 4.8
從這裡下載Tensorrt 10。
- 必需> = 10.0
導航到CMakeLists.txt文件，然後用Tensorrt安裝的路徑替換TODO 。

建立圖書館

mkdir build
cd build
cmake ..
make -j$(nproc)

運行可執行文件

導航到構建目錄
運行可執行文件並為您的ONNX模型提供路徑。
前任。 ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- 注意：有關如何獲得Yolov8n型號的說明，請參見以下理智檢查部分。
您第一次為給定模型和選項運行可執行文件時，將從您的ONNX模型中構建張力引擎文件。這個過程相當慢，對於某些型號（例如Yolo型號）可能需要5分鐘以上。
另外，您可以選擇直接提供自己的張力引擎文件：
前任。 ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- 注意：當提供您自己的Tensorrt引擎文件時，請參見下面的V5.0 ChangElog。

理智檢查

要執行理智檢查，請從此處下載YOLOv8n模型。
接下來，使用以下腳本將其從Pytorch轉換為ONNX：
- 您需要首先運行pip3 install ultralytics 。

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

將所得的ONNX模型yolov8n.onnx （在./models/目錄中）放置。
使用上述模型和位於./inputs/team.jpg中的圖像運行推理應產生以下功能向量：
- 注意：特徵向量不會相同（但非常相似），因為Tensorrt不是確定性的。

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

INT8推理

啟用INT8精度可以進一步加速推斷，以減少動態範圍而導致的準確性降低成本。對於INT8精度，用戶必須提供校準數據，該數據代表了該模型將看到的真實數據。建議使用1K+校準圖像。要使用Yolov8 Sanity檢查模型啟用INT8推斷，必須採取以下步驟：

更改options.precision = Precision::FP16; to options.precision = Precision::INT8;在main.cpp中
options.calibrationDataDirectoryPath = "";必須在main.cpp中更改以指定包含校準數據的路徑。
- 如果使用Yolov8模型，建議使用可可驗證數據集，可以使用wget http://images.cocodataset.org/zips/val2017.zip下載該數據集。
確保在Int8EntropyCalibrator2::getBatch方法中的engine.cpp （請參閱TODO ）中的調整代碼適合您的模型。
- 如果使用Yolov8模型，則預處理代碼是正確的，不需要更改。
重新編譯，運行可執行文件。
校準高速緩存將寫入磁盤（ .calibration擴展），以便在隨後的模型優化下可以重複使用。如果您想重新生成校準數據，則必須刪除此緩存文件。
如果您獲得“函數分配中的內存”錯誤，則必須降低Options.calibrationBatchSize ，以便整個批次可以適合您的GPU內存。

基準

基准在RTX 3050 Ti筆記本電腦GPU上運行，第11代英特爾（R）Core（TM）I9-11900H @ 2.50GHz。

模型	精確	批量大小	AVG推理時間
Yolov8n	fp32	1	4.732毫秒
Yolov8n	FP16	1	2.493毫秒
Yolov8n	INT8	1	2.009毫秒
yolov8x	fp32	1	76.63毫秒
yolov8x	FP16	1	25.08 ms
yolov8x	INT8	1	11.62毫秒

樣本整合

想知道如何將該庫集成到您的項目中？或者也許如何讀取Yolov8模型的輸出以提取有意義的信息？如果是這樣，請查看我的兩個最新項目，即Yolov8-Tensorrt-CPP和Yolov9-Tensorrt-CPP，這些項目演示瞭如何使用Tensorrt C ++ API運行Yolov8/9推斷（支持對象檢測，語義段，身體姿勢估計和身體姿勢估計）。他們在後端使用了這個項目！

項目結構

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

了解代碼

實施的大部分位於include/engine中。我在整個代碼中都寫了很多評論，這應該使您很容易理解發生了什麼。
推理代碼位於include/engine/EngineRunInference.inl中。
Tensorrt Engine文件的建築物和加載位於include/engine/EngineBuildLoadNetwork.inl中。
您還可以查看我的深度參考視頻，其中我可以在其中解釋每一行代碼。

如何調試

該實現使用spdlog庫進行記錄。您可以通過將環境變量LOG_LEVEL設置為以下值之一來更改日誌級別： trace ， debug ， info ， warn ， error ， critical ， off 。
如果您從ONNX模型中創建Tensorrt引擎文件的問題，請考慮設置環境變量LOG_LEVEL以trace並重新運行應用程序。這應該為您提供有關構建過程失敗的何處的更多信息。

表示感謝

如果這個項目對您有所幫助，我將不勝感激，如果您能給它一個明星。這將鼓勵我確保它是最新的，並迅速解決問題。如果您需要更多的具體幫助，我也會做諮詢工作。在LinkedIn上與我聯繫。

貢獻者

_{Loic Tetrel}

_{Thomaskleiven}

_威辛

ChangElog

v6.0

現在，實現需要緊張> = 10.0。

v5.0

已修改了Engine類以使用模板參數，該參數指定了模型輸出數據類型。現在，該實現支持類型float ， __half ， int8_t ， int32_t ， bool和uint8_t的輸出。
添加了用於直接加載Tensorrt引擎文件的支持，而無需從ONNX模型中進行編譯。 Howver，強烈建議您使用提供的API來從ONNX模型構建引擎文件，而不是直接加載Tensorrt模型。如果您選擇直接加載Tensorrt模型文件，則必須手動檢查是否正確設置了該Options為模型設置（例如，如果您的模型已針對FP32編譯為FP32，但是您嘗試運行FP16推斷，它將失敗，可能沒有雜語錯誤）。
添加了命令行解析器。

v4.1

添加了對固定批次尺寸> 1的支持。

v4.0

添加了對INT8精度的支持。

v3.0

實現已更新以使用Tensorrt 8.6 API（ex。IexecutionContext IExecutionContext::enqueueV3() ）。
可執行driver已重命名為run_inference_benchmark ，現在必須以命令行參數為ONNX模型。
刪除Options.doesSupportDynamicBatchSize 。doessupportdynamicbatchsize。現在實現自動檢測支持的批量大小。
刪除了Options.maxWorkspaceSize 。現在，實現在模型構建過程中不限制GPU內存，從而允許實現使用與中間層可用的盡可能多的內存池。

v2.2