tensorrt cpp api下载tensorrt cpp api源代码下载

tensorrt cpp api

C/C++

1.0.0

下载

Tensorrt C ++ API教程

如何使用Tensorrt C ++ API进行高性能GPU机器学习推理。
支持具有单个 /多个输入的模型和带有批处理的单个 /多个输出。

项目概述视频。代码深度参考视频

寻找维护者

该项目正在积极寻求维护者，以帮助指导其增长和改进。如果您对这个项目充满热情并且对贡献感兴趣，我很想听听您的来信！

请随时通过LinkedIn与您联系，以讨论如何参与其中。

Tensorrt C ++教程

我读了所有的nvidia tensorrt文档，所以您不必这样做！

该项目演示了如何使用Tensorrt C ++ API作为图像数据上的高性能GPU推断。它涵盖了如何执行以下操作：

如何在Ubuntu 20.04 / 22.04上安装Tensorrt 10。
如何生成针对GPU优化的张力引擎文件。
如何指定简单的优化配置文件。
如何运行FP32，FP16或INT8精度推断。
如何从 /中读取 /写入GPU内存并使用GPU图像。
如何使用CUDA流进行异步推理并随后同步。
如何与具有静态和动态批量大小的模型一起使用。
如何使用单个或多个输出张量的型号工作。
如何与具有多个输入的模型一起工作。
包括一个视频演练，我在其中解释了每一行代码。
该代码可以用作任何将固定尺寸图像 /图像作为输入的模型的基础，包括Insightface Arcface，Yolov8，SCRFD面部检测。
- 您只需要实现适当的后处理代码即可。
TODO：添加对具有动态输入形状的模型的支持。
TODO：添加对Windows的支持

入门

以下说明假定您使用的是Ubuntu 20.04或22.04。您将需要为此示例代码提供自己的ONNX模型，或者可以下载示例模型（请参见下面的SANITY检查部分）。

先决条件

测试并在Ubuntu 20.04和22.04上工作（目前不支持Windows）
在此处安装CUDA 11或12，说明。
- 建议> = 12.0
- 必需> = 11.0
在此处安装Cudnn，说明。
- 必需> = 8
- 所需<9（OpenCV GPU尚未支持）
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev （用于记录）
在CUDA支持的情况下安装OpenCV。要从源中编译OpenCV，请运行./scripts/中提供的build_opencv.sh脚本。
- 如果您使用提供的脚本，并且已将Cudnn安装到非标准位置，则必须在脚本中修改CUDNN_INCLUDE_DIR和CUDNN_LIBRARY变量。
- 建议> = 4.8
从这里下载Tensorrt 10。
- 必需> = 10.0
导航到CMakeLists.txt文件，然后用Tensorrt安装的路径替换TODO 。

建立图书馆

mkdir build
cd build
cmake ..
make -j$(nproc)

运行可执行文件

导航到构建目录
运行可执行文件并为您的ONNX模型提供路径。
前任。 ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- 注意：有关如何获得Yolov8n型号的说明，请参见以下理智检查部分。
您第一次为给定模型和选项运行可执行文件时，将从您的ONNX模型中构建张力引擎文件。这个过程相当慢，对于某些型号（例如Yolo型号）可能需要5分钟以上。
另外，您可以选择直接提供自己的张力引擎文件：
前任。 ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- 注意：当提供您自己的Tensorrt引擎文件时，请参见下面的V5.0 ChangElog。

理智检查

要执行理智检查，请从此处下载YOLOv8n模型。
接下来，使用以下脚本将其从Pytorch转换为ONNX：
- 您需要首先运行pip3 install ultralytics 。

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

将所得的ONNX模型yolov8n.onnx （在./models/目录中）放置。
使用上述模型和位于./inputs/team.jpg中的图像运行推理应产生以下功能向量：
- 注意：特征向量不会相同（但非常相似），因为Tensorrt不是确定性的。

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

INT8推理

启用INT8精度可以进一步加速推断，以减少动态范围而导致的准确性降低成本。对于INT8精度，用户必须提供校准数据，该数据代表了该模型将看到的真实数据。建议使用1K+校准图像。要使用Yolov8 Sanity检查模型启用INT8推断，必须采取以下步骤：

更改options.precision = Precision::FP16; to options.precision = Precision::INT8;在main.cpp中
options.calibrationDataDirectoryPath = "";必须在main.cpp中更改以指定包含校准数据的路径。
- 如果使用Yolov8模型，建议使用可可验证数据集，可以使用wget http://images.cocodataset.org/zips/val2017.zip下载该数据集。
确保在Int8EntropyCalibrator2::getBatch方法中的engine.cpp （请参阅TODO ）中的调整代码适合您的模型。
- 如果使用Yolov8模型，则预处理代码是正确的，不需要更改。
重新编译，运行可执行文件。
校准高速缓存将写入磁盘（ .calibration扩展），以便在随后的模型优化下可以重复使用。如果您想重新生成校准数据，则必须删除此缓存文件。
如果您获得“函数分配中的内存”错误，则必须降低Options.calibrationBatchSize ，以便整个批次可以适合您的GPU内存。

基准

基准在RTX 3050 Ti笔记本电脑GPU上运行，第11代英特尔（R）Core（TM）I9-11900H @ 2.50GHz。

模型	精确	批量大小	AVG推理时间
Yolov8n	fp32	1	4.732毫秒
Yolov8n	FP16	1	2.493毫秒
Yolov8n	INT8	1	2.009毫秒
yolov8x	fp32	1	76.63毫秒
yolov8x	FP16	1	25.08 ms
yolov8x	INT8	1	11.62毫秒

样本整合

想知道如何将该库集成到您的项目中？或者也许如何读取Yolov8模型的输出以提取有意义的信息？如果是这样，请查看我的两个最新项目，即Yolov8-Tensorrt-CPP和Yolov9-Tensorrt-CPP，这些项目演示了如何使用Tensorrt C ++ API运行Yolov8/9推断（支持对象检测，语义段，身体姿势估计和身体姿势估计）。他们在后端使用了这个项目！

项目结构

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

了解代码

实施的大部分位于include/engine中。我在整个代码中都写了很多评论，这应该使您很容易理解发生了什么。
推理代码位于include/engine/EngineRunInference.inl中。
Tensorrt Engine文件的建筑物和加载位于include/engine/EngineBuildLoadNetwork.inl中。
您还可以查看我的深度参考视频，其中我可以在其中解释每一行代码。

如何调试

该实现使用spdlog库进行记录。您可以通过将环境变量LOG_LEVEL设置为以下值之一来更改日志级别： trace ， debug ， info ， warn ， error ， critical ， off 。
如果您从ONNX模型中创建Tensorrt引擎文件的问题，请考虑设置环境变量LOG_LEVEL以trace并重新运行应用程序。这应该为您提供有关构建过程失败的何处的更多信息。

表示感谢

如果这个项目对您有所帮助，我将不胜感激，如果您能给它一个明星。这将鼓励我确保它是最新的，并迅速解决问题。如果您需要更多的具体帮助，我也会做咨询工作。在LinkedIn上与我联系。

贡献者

_{Loic Tetrel}

_{Thomaskleiven}

_威辛

ChangElog

v6.0

现在，实现需要紧张> = 10.0。

v5.0

已修改了Engine类以使用模板参数，该参数指定了模型输出数据类型。现在，该实现支持类型float ， __half ， int8_t ， int32_t ， bool和uint8_t的输出。
添加了用于直接加载Tensorrt引擎文件的支持，而无需从ONNX模型中进行编译。 Howver，强烈建议您使用提供的API来从ONNX模型构建引擎文件，而不是直接加载Tensorrt模型。如果您选择直接加载Tensorrt模型文件，则必须手动检查是否正确设置了该Options为模型设置（例如，如果您的模型已针对FP32编译为FP32，但是您尝试运行FP16推断，它将失败，可能没有杂语错误）。
添加了命令行解析器。

v4.1

添加了对固定批次尺寸> 1的支持。

v4.0

添加了对INT8精度的支持。

v3.0

实现已更新以使用Tensorrt 8.6 API（ex。IexecutionContext IExecutionContext::enqueueV3() ）。
可执行driver已重命名为run_inference_benchmark ，现在必须以命令行参数为ONNX模型。
删除Options.doesSupportDynamicBatchSize 。doessupportdynamicbatchsize。现在实现自动检测支持的批量大小。
删除了Options.maxWorkspaceSize 。现在，实现在模型构建过程中不限制GPU内存，从而允许实现使用与中间层可用的尽可能多的内存池。

v2.2