tensorrt cpp api скачать - tensorrt cpp api -код скачать

tensorrt cpp api

С/С++

1.0.0

Скачать

логотип

Учебник Tensorrt C ++ API

Как использовать API Tensorrt C ++ для высокопроизводительного вывода машинного обучения GPU.
Поддерживает модели с отдельными / множеством входов и одиночными / несколькими выходами с пакетом.

Обзор проекта. Код глубоко удваивает видео

Ищу сопровождающих

Этот проект активно ищет сопровождающих, чтобы помочь руководству его ростом и улучшением. Если вы увлечены этим проектом и заинтересованы в содействии, я бы хотел услышать от вас!

Пожалуйста, не стесняйтесь обратиться через LinkedIn, чтобы обсудить, как вы можете принять участие.

Tenensorrt C ++ Учебник

Я читаю все документы Nvidia Tensorrt, чтобы вам не придется!

Этот проект демонстрирует, как использовать API Tensorrt C ++ для высокопроизводительного вывода GPU для данных изображения. Он охватывает, как сделать следующее:

Как установить Tensorrt 10 на Ubuntu 20.04 / 22.04.
Как сгенерировать файл двигателя Tensorrt, оптимизированный для вашего графического процессора.
Как указать простой профиль оптимизации.
Как запустить вывод FP32, FP16 или Int8.
Как читать / записать данные из / в память графического процессора и работать с изображениями графических процессоров.
Как использовать поток CUDA, чтобы запустить асинхронное вывод, а затем синхронизировать.
Как работать с моделями со статическими и динамическими размерами партии.
Как работать с моделями с одиночными или несколькими выходными тензорами.
Как работать с моделями с несколькими входами.
Включает в себя прохождение видео, где я объясняю каждую строку кода.
Код может использоваться в качестве базы для любой модели, которая принимает изображение / изображения с фиксированным размером в качестве входных данных, включая Insightface Arcface, Yolov8, SCRFD обнаружение лица.
- Вам просто нужно будет реализовать соответствующий код после обработки.
TODO: Добавьте поддержку для моделей с динамическими входными формами.
TODO: Добавьте поддержку для Windows

Начиная

Следующие инструкции предполагают, что вы используете Ubuntu 20.04 или 22.04. Вам нужно будет предоставить свою собственную модель ONNX для этого примера кода, или вы можете загрузить пример модель (см. Раздел проверки здравомыслия ниже).

Предварительные условия

Протестировано и работая над Ubuntu 20.04 и 22.04 (Windows в настоящее время не поддерживается)
Установите CUDA 11 или 12, инструкции здесь.
- Рекомендуется> = 12,0
- Требуется> = 11,0
Установите Cudnn, инструкции здесь.
- Требуется> = 8
- Требуется <9 (GPU OpenCV еще не поддерживает)
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev (для регистрации)
Установите OpenCV с поддержкой CUDA. Чтобы скомпилировать OpenCV из Source, запустите сценарий build_opencv.sh предоставленный в ./scripts/ .
- Если вы используете предоставленный скрипт и установили Cudnn в нестандартное место, вы должны изменить переменные CUDNN_INCLUDE_DIR и CUDNN_LIBRARY в скрипте.
- Рекомендуется> = 4,8
Скачать Tensorrt 10 отсюда.
- Требуется> = 10,0
Перейдите к файлу CMakeLists.txt и замените TODO на путь к установке Tensorrt.

Построение библиотеки

mkdir build
cd build
cmake ..
make -j$(nproc)

Запуск исполняемого файла

Перейдите в каталог сборки
Запустите исполняемый файл и предоставьте путь к вашей модели ONNX.
бывший. ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- ПРИМЕЧАНИЕ. См. Раздел проверки здравомыслия ниже для инструкций о том, как получить модель Yolov8N.
В первый раз, когда вы запускаете исполняемый файл для данной модели и опций, из вашей модели ONNX будет построен файл двигателя TensorRt. Этот процесс довольно медленный и может занять более 5 минут для некоторых моделей (например, модели YOLO).
В качестве альтернативы, вы можете напрямую снабжать свой собственный файл двигателя Tensorrt
бывший. ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- ПРИМЕЧАНИЕ. См. V5.0 ChangeLog ниже для предупреждений при подаче своего собственного файла Tensorrt Engine.

Проверка здравомыслия

Чтобы выполнить проверку здравомыслия, скачать модель YOLOv8n отсюда.
Затем преобразуйте его из Pytorch в ONNX, используя следующий сценарий:
- Вам нужно будет сначала запустить pip3 install ultralytics .

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

Поместите полученную модель ONNX, yolov8n.onnx , в каталоге ./models/ .
Запуск вывода с использованием указанной модели и изображения, расположенного в ./inputs/team.jpg , должен создать следующий вектор функций:
- ПРИМЕЧАНИЕ. Вектор функций не будет идентичен (но очень похожим), поскольку Tensorrt не является детерминированным.

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

Int8 вывод

Включение точности Int8 может еще больше ускорить вывод за счет снижения точности из -за снижения динамического диапазона. Для точности int8 пользователь должен предоставлять данные калибровки, которые являются репрезентативными для реальных данных, которые будет увидеть модель. Рекомендуется использовать калибровочные изображения 1K+. Чтобы включить вывод INT8 с моделью проверки здравомыслия Yolov8, необходимо предпринять следующие шаги:

Изменение options.precision = Precision::FP16; to options.precision = Precision::INT8; в main.cpp
options.calibrationDataDirectoryPath = ""; Должен быть изменен в main.cpp , чтобы указать путь, содержащий данные калибровки.
- При использовании модели Yolov8 рекомендуется использовать набор данных проверки Coco, который можно загрузить с помощью wget http://images.cocodataset.org/zips/val2017.zip
Убедитесь, что код изменения размера в методе Int8EntropyCalibrator2::getBatch в engine.cpp (см. TODO ) является правильным для вашей модели.
- При использовании модели YOLOV8, код предварительной обработки является правильным и не нужно изменять.
Перекомпилируйте, запустите исполняемый файл.
Калибровочный кэш будет записан на диск (расширение .calibration ), чтобы при последующих оптимизации модели его можно было повторно использовать. Если вы хотите восстановить данные калибровки, вы должны удалить этот файл кэша.
Если вы получите ошибку «вне памяти в функции распределять», то вы должны уменьшить Options.calibrationBatchSize .

Тесты

Цитрицы, работающие на графическом процессоре для ноутбука RTX 3050 TI, Core 11th Gen (R) Core (TM) I9-11900H @ 2,50 ГГц.

Модель	Точность	Размер партии	AVG Время вывода
Yolov8n	FP32	1	4,732 мс
Yolov8n	FP16	1	2,493 мс
Yolov8n	Int8	1	2,009 мс
Yolov8x	FP32	1	76,63 мс
Yolov8x	FP16	1	25,08 мс
Yolov8x	Int8	1	11,62 мс

Пример интеграции

Хотите знать, как интегрировать эту библиотеку в свой проект? Или, может быть, как прочитать выходы модели Yolov8 для извлечения значимой информации? Если это так, ознакомьтесь с моими двумя последними проектами, Yolov8-Tensorrt-CPP и Yolov9-Tensorrt-CPP, которые демонстрируют, как использовать API Tensorrt C ++ для выполнения вывода Yolov8/9 (поддерживает обнаружение объекта, семантическую сегментацию и оценку позы тела). Они используют этот проект в бэкэнде!

Структура проекта

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

Понимание кода

Большая часть реализации находится в include/engine . Я написал много комментариев на протяжении всего кода, которые должны облегчить понимание того, что происходит.
Код вывода находится в include/engine/EngineRunInference.inl .
Здание и загрузка файла двигателя Tensorrt находится в include/engine/EngineBuildLoadNetwork.inl .
Вы также можете посмотреть мое глубокое видео, в котором я объясняю каждую строку кода.

Как отлаживать

Реализация использует библиотеку spdlog для регистрации. Вы можете изменить уровень журнала, установив переменную среды LOG_LEVEL на одно из следующих значений: trace , debug , info , warn , error , critical , off .
Если у вас есть проблемы, создающие файл двигателя Tensorrt из модели ONNX, рассмотрите возможность установки переменной среды LOG_LEVEL для trace и повторного использования приложения. Это должно дать вам больше информации о том, где именно процесс сборки проходит.

Покажите свою признательность

Если бы этот проект был полезен для вас, я был бы признателен, если бы вы могли дать ему звезду. Это побудит меня убедиться, что он актуально и быстро решает проблемы. Я также делаю консалтинговую работу, если вам нужна более конкретная помощь. Связаться со мной на LinkedIn.

Участники

_{Loic Tetrel}

_{Thomaskleiven}

_Висин

Изменение

V6.0

Реализация теперь требует Tensorrt> = 10.0.

V5.0

Класс Engine был изменен, чтобы принять параметр шаблона, который указывает тип выходных данных моделей. Реализация теперь поддерживает выходы типа float , __half , int8_t , int32_t , bool и uint8_t .
Добавлена поддержка для загрузки файла двигателя Tensorrt непосредственно без необходимости компиляции из модели ONNX. Тем не менее, настоятельно рекомендуется использовать предоставленный API для создания файла двигателя из модели ONNX, вместо того, чтобы напрямую загружать модель Tensorrt. Если вы решите напрямую загружать файл модели Tensorrt, вы должны проверить, что Options были правильно установлены для вашей модели (например, если ваша модель была скомпилирована для FP32, но вы пытаетесь выполнить вывод FP16, она не удастся, потенциально без погрешности словесной).
Добавлен анализатор командной строки.

V4.1

Добавлена поддержка фиксированного размера партии> 1.

V4.0

Добавлена поддержка Int8 Precision.

V3.0

Реализация была обновлена для использования Tensorrt 8.6 API (например, IExecutionContext::enqueueV3() ).
Исполняемый файл переименован от driver до run_inference_benchmark и теперь должен пройти путь к модели ONNX в качестве аргумента командной строки.
Удаленные Options.doesSupportDynamicBatchSize . Реализация теперь автоматически определяет размеры партий.
Удаленные Options.maxWorkspaceSize . Реализация теперь не ограничивает память графических процессоров во время конструкций модели, позволяя реализации использовать столько пула памяти, сколько доступно для промежуточных слоев.

v2.2

Serialize Model имя как часть файла двигателя.

V2.1

Добавлена поддержка для моделей с несколькими входами. Реализация теперь поддерживает модели с отдельными входами, несколькими входами, отдельными выходами, несколькими выходами и пакетированием.

V2.0

Требуется установка OpenCV CUDA. Чтобы установить, следуйте инструкциям здесь.
Options.optBatchSizes был удален, заменен Options.optBatchSize .
Поддержка моделей с более чем одним выходом (Ex. SCRFD).
Добавлена поддержка для моделей, которые не поддерживают пакетный вывод (первое входное измерение исправлено).
Больше проверки ошибок.
Исправлена куча общих проблем, с которыми люди сталкивались с оригинальной версией V1.0.
Удалить пробел с имени устройства GPU