tensorrt cpp api Téléchargement - tensorrt cpp api Code source Télécharger

tensorrt cpp api

C/C++

1.0.0

Télécharger

logo

Tutoriel de l'API Tensorrt C ++

Comment utiliser l'API Tensorrt C ++ pour une inférence d'apprentissage machine GPU haute performance.
Prend en charge les modèles avec des entrées uniques / multiples et des sorties uniques / multiples avec lots.

Video de l'aperçu du projet. CODE VIDÉO DE LA DIVE DEEP

À la recherche de mainteneurs

Ce projet recherche activement les mainteneurs pour aider à guider sa croissance et son amélioration. Si vous êtes passionné par ce projet et que vous souhaitez contribuer, j'aimerais avoir de vos nouvelles!

N'hésitez pas à vous contacter via LinkedIn pour discuter de la façon dont vous pouvez vous impliquer.

Tutoriel Tensorrt C ++

J'ai lu tous les documents Nvidia Tensorrt pour que vous n'ayez pas à le faire!

Ce projet montre comment utiliser l'API Tensorrt C ++ pour l'inférence GPU haute performance sur les données d'image. Il couvre comment faire ce qui suit:

Comment installer Tensorrt 10 sur Ubuntu 20.04 / 22.04.
Comment générer un fichier moteur Tensorrt optimisé pour votre GPU.
Comment spécifier un profil d'optimisation simple.
Comment exécuter FP32, FP16 ou inférence de précision INT8.
Comment lire / écrire des données de / dans la mémoire du GPU et travailler avec les images GPU.
Comment utiliser CUDA Stream pour exécuter l'inférence asynchrone et synchroniser ultérieurement.
Comment travailler avec des modèles avec des tailles de lots statiques et dynamiques.
Comment travailler avec des modèles avec des tenseurs de sortie uniques ou multiples.
Comment travailler avec des modèles avec plusieurs entrées.
Comprend une procédure vidéo où j'explique chaque ligne de code.
Le code peut être utilisé comme base pour tout modèle qui prend une image / images de taille fixe comme entrée, y compris Insightface ArcFace, Yolov8, SCRFD Face Detection.
- Vous aurez juste besoin d'implémenter le code post-traitement approprié.
TODO: Ajoutez une prise en charge des modèles avec des formes d'entrée dynamiques.
TODO: Ajouter la prise en charge de Windows

Commencer

Les instructions suivantes supposent que vous utilisez Ubuntu 20.04 ou 22.04. Vous devrez fournir votre propre modèle ONNX pour cet exemple de code ou vous pouvez télécharger l'exemple de modèle (voir la section Vérification Sanity ci-dessous).

Condition préalable

Testé et travaillant sur Ubuntu 20.04 et 22.04 (Windows n'est pas pris en charge pour le moment)
Installez CUDA 11 ou 12, instructions ici.
- Recommandé> = 12.0
- Requis> = 11.0
Installez CUDNN, instructions ici.
- Requis> = 8
- Requis <9 (OpenCV GPU ne prend pas encore en charge)
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev (pour journalisation)
Installez OpenCV avec le support CUDA. Pour compiler OpenCV à partir de la source, exécutez le script build_opencv.sh fourni dans ./scripts/ .
- Si vous utilisez le script fourni et que vous avez installé CUDNN à un emplacement non standard, vous devez modifier les variables CUDNN_INCLUDE_DIR et CUDNN_LIBRARY dans le script.
- Recommandé> = 4.8
Téléchargez Tensorrt 10 d'ici.
- Requis> = 10,0
Accédez au fichier CMakeLists.txt et remplacez le TODO par le chemin d'accès à votre installation Tensorrt.

Construire la bibliothèque

mkdir build
cd build
cmake ..
make -j$(nproc)

Exécution de l'exécutable

Accédez au répertoire de construction
Exécutez l'exécutable et fournissez le chemin d'accès à votre modèle ONNX.
ex. ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- Remarque: Voir la section de vérification de la raison ci-dessous pour obtenir des instructions sur la façon d'obtenir le modèle Yolov8n.
La première fois que vous exécutez l'exécutable pour un modèle et des options donné, un fichier moteur Tensorrt sera construit à partir de votre modèle ONNX. Ce processus est assez lent et peut prendre plus de 5 minutes pour certains modèles (ex. Modèles Yolo).
Alternativement, vous pouvez choisir de fournir directement votre propre fichier moteur Tensorrt:
ex. ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- Remarque: Voir v5.0 Changelog ci-dessous pour les avertissements lors de la fourniture de votre propre fichier moteur Tensorrt.

Chèque de santé mentale

Pour effectuer une vérification de la santé mentale, téléchargez le modèle YOLOv8n à partir d'ici.
Ensuite, convertissez-le de Pytorch en onnx en utilisant le script suivant:
- Vous devrez d'abord exécuter pip3 install ultralytics .

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

Placez le modèle ONNX résultant, yolov8n.onnx , dans le répertoire ./models/ .
L'inférence de l'exécution en utilisant ledit modèle et l'image située dans ./inputs/team.jpg devrait produire le vecteur de fonctionnalité suivant:
- Remarque: Le vecteur de fonctionnalité ne sera pas identique (mais très similaire) car Tensorrt n'est pas déterministe.

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

Inférence INT8

L'activation de la précision INT8 peut plus accélérer l'inférence au coût de la réduction de la précision en raison d'une plage dynamique réduite. Pour INT8 Precision, l'utilisateur doit fournir des données d'étalonnage qui sont représentatives des données réelles que le modèle verra. Il est conseillé d'utiliser des images d'étalonnage 1k +. Pour permettre l'inférence INT8 avec le modèle de vérification de la santé mentale de Yolov8, les étapes suivantes doivent être prises:

Modifier options.precision = Precision::FP16; aux options.precision = Precision::INT8; Dans main.cpp
options.calibrationDataDirectoryPath = ""; doit être modifié dans main.cpp pour spécifier les données d'étalonnage contenant le chemin.
- Si vous utilisez le modèle YOLOV8, il est conseillé d'utiliser l'ensemble de données de validation CoCo, qui peut être téléchargé avec wget http://images.cocodataset.org/zips/val2017.zip
Assurez-vous que le code de redimensionnement de la méthode Int8EntropyCalibrator2::getBatch dans engine.cpp (voir TODO ) est correct pour votre modèle.
- Si vous utilisez le modèle YOLOV8, le code de prétraitement est correct et n'a pas besoin d'être modifié.
Recompile, exécutez l'exécutable.
Le cache d'étalonnage sera écrit sur le disque (extension .calibration Si vous souhaitez régénérer les données d'étalonnage, vous devez supprimer ce fichier de cache.
Si vous obtenez une erreur "hors de la mémoire dans l'allocation de fonction", vous devez réduire Options.calibrationBatchSize .

Repères

Benchmarks fonctionnent sur le GPU d'ordinateur portable RTX 3050 TI, 11th Gen Intel (R) Core (TM) I9-11900H @ 2,50 GHz.

Modèle	Précision	Taille de lot	Temps d'inférence AVG
yolov8n	Fp32	1	4,732 ms
yolov8n	FP16	1	2,493 ms
yolov8n	Int8	1	2,009 ms
yolov8x	Fp32	1	76,63 ms
yolov8x	FP16	1	25.08 ms
yolov8x	Int8	1	11,62 ms

Intégration d'échantillons

Vous vous demandez comment intégrer cette bibliothèque dans votre projet? Ou peut-être comment lire les sorties du modèle Yolov8 pour extraire des informations significatives? Si c'est le cas, consultez mes deux derniers projets, Yolov8-Tensorrt-CPP et Yolov9-Tensorrt-CPP, qui montrent comment utiliser l'API Tensorrt C ++ pour exécuter l'inférence YOLOV8 / 9 (prend en charge la détection d'objets, la segmentation sémantique et l'estimation de la pose corporelle). Ils utilisent ce projet dans le backend!

Structure du projet

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

Comprendre le code

La majeure partie de la mise en œuvre est située dans include/engine . J'ai écrit beaucoup de commentaires tout au long du code, ce qui devrait faciliter la compréhension de ce qui se passe.
Le code d'inférence est situé dans include/engine/EngineRunInference.inl .
Le bâtiment et le chargement du fichier moteur Tensorrt se trouvent dans include/engine/EngineBuildLoadNetwork.inl .
Vous pouvez également consulter ma vidéo en profondeur dans laquelle j'explique chaque ligne de code.

Comment déboguer

L'implémentation utilise la bibliothèque spdlog pour la journalisation. Vous pouvez modifier le niveau de journal en définissant la variable d'environnement LOG_LEVEL en l'une des valeurs suivantes: trace , debug , info , warn , error , critical , off .
Si vous avez des problèmes de création du fichier moteur Tensorrt à partir du modèle ONNX, envisagez de définir la variable d'environnement LOG_LEVEL pour trace et ré-cours l'application. Cela devrait vous donner plus d'informations sur l'endroit où le processus de construction échoue.

Montrez votre appréciation

Si ce projet vous était utile, j'apprécierais que vous puissiez lui donner une étoile. Cela m'encouragera à m'assurer qu'il est à jour et à résoudre rapidement les problèmes. Je fais également du travail de consultation si vous avez besoin d'une aide plus spécifique. Connectez-vous avec moi sur LinkedIn.

Contributeurs

_{Ténel locier}

_{thomaskleiven}

_Wicyn

Changelog

V6.0

L'implémentation nécessite désormais Tensorrt> = 10.0.

V5.0

La classe Engine a été modifiée pour prendre un paramètre de modèle qui spécifie le type de données de sortie des modèles. L'implémentation prend désormais en charge les sorties de type float , __half , int8_t , int32_t , bool et uint8_t .
Ajout de la prise en charge du chargement du fichier moteur Tensorrt directement sans avoir à compiler à partir du modèle ONNX. Howver, il est fortement recommandé d'utiliser l'API fournie pour construire le fichier moteur à partir du modèle ONNX, au lieu de charger directement un modèle Tensorrt. Si vous choisissez de charger directement un fichier de modèle Tensorrt, vous devez vérifier à la main que les Options ont été définies correctement pour votre modèle (par exemple, si votre modèle a été compilé pour FP32 mais que vous essayez d'exécuter l'inférence FP16, il échouera, potentiellement sans erreur verbeuse).
Ajout de l'analyseur de ligne de commande.

V4.1

Ajout de la prise en charge de la taille fixe du lot> 1.

V4.0

Ajout de la prise en charge de la précision INT8.

V3.0

L'implémentation a été mise à jour pour utiliser l'API Tensorrt 8.6 (Ex. IExecutionContext::enqueueV3() ).
L'exécutable est renommé du driver à run_inference_benchmark et doit maintenant être passé le chemin du modèle ONNX comme argument de ligne de commande.
Supprimé Options.doesSupportDynamicBatchSize . La mise en œuvre de la mise en œuvre automatique prend en charge les tailles de lots.
Supprimer Options.maxWorkspaceSize . L'implémentation ne limite désormais pas la mémoire GPU lors des constructions de modèles, permettant à l'implémentation d'utiliser autant de pool de mémoire que disponibles pour les couches intermédiaires.

v2.2

Sérialiser le nom du modèle dans le cadre du fichier moteur.

V2.1

Ajout de la prise en charge des modèles avec plusieurs entrées. L'implémentation prend désormais en charge les modèles avec des entrées uniques, plusieurs entrées, des sorties uniques, plusieurs sorties et lot.

V2.0

Nécessite l'installation d'OpenCV CUDA. Pour installer, suivez les instructions ici.
Options.optBatchSizes a été supprimée, remplacée par Options.optBatchSize .
Modèles de support avec plus d'une seule sortie (Ex. SCRFD).
Ajout de la prise en charge des modèles qui ne prennent pas en charge l'inférence du lot (la première dimension d'entrée est fixe).
Plus de vérification des erreurs.
Correction d'un tas de problèmes communs que les gens rencontraient avec la version V1.0 originale.
Supprimer l'espace du nom du périphérique GPU