tensorrt cpp api Download - tensorrt cpp api Quellcode Download

tensorrt cpp api

C/C++

1.0.0

Herunterladen

Logo

Tensorrt C ++ API -Tutorial

So verwenden Sie Tensorrt C ++ API für Hochleistungs-GPU-Maschinenlern-Inferenz.
Unterstützt Modelle mit einzelnen / mehreren Eingängen und Einzel- / Mehrfachausgängen mit Charge.

Projektübersicht Video. Code Deep-Dive-Video

Auf der Suche nach Betreuer

Dieses Projekt sucht aktiv nach Betreuer, um sein Wachstum und die Verbesserung zu leiten. Wenn Sie sich für dieses Projekt begeistern und an einem Beitrag interessiert sind, würde ich gerne von Ihnen hören!

Bitte wenden Sie sich bitte über LinkedIn, um zu besprechen, wie Sie sich engagieren können.

Tensorrt C ++ Tutorial

Ich habe alle Nvidia Tensorrt -Dokumente gelesen, damit Sie es nicht müssen!

Dieses Projekt zeigt, wie die Tensorrt C ++ - API für Hochleistungs -GPU -Inferenz für Bilddaten verwendet wird. Es behandelt, wie man Folgendes macht:

So installieren Sie Tensorrt 10 auf Ubuntu 20.04 / 22.04.
So generieren Sie eine Tensorrt -Engine -Datei, die für Ihre GPU optimiert ist.
So geben Sie ein einfaches Optimierungsprofil an.
So führen Sie FP32-, FP16- oder INT8 -Präzisionsinferenz aus.
So lesen / schreiben Sie Daten aus / in den GPU -Speicher und arbeiten Sie mit GPU -Bildern.
So verwenden Sie CUDA -Stream, um eine asynchronische Inferenz auszuführen und später zu synchronisieren.
Wie man mit Modellen mit statischen und dynamischen Chargengrößen arbeitet.
So arbeiten Sie mit Modellen mit einzelnen oder mehreren Ausgangstensoren.
So arbeiten Sie mit Modellen mit mehreren Eingaben.
Enthält eine Video -Walkthrough, bei der ich jede Codezeile erkläre.
Der Code kann als Basis für jedes Modell verwendet werden, das Bild / Bilder mit fester Größe als Eingabe aufnimmt, einschließlich Insightface Arcface, Yolov8, SCRFD -Gesichtserkennung.
- Sie müssen nur den entsprechenden Nachbearbeitungscode implementieren.
TODO: Fügen Sie Unterstützung für Modelle mit dynamischen Eingangsformen hinzu.
TODO: Fügen Sie Unterstützung für Windows hinzu

Erste Schritte

In den folgenden Anweisungen werden Ubuntu 20.04 oder 22.04 verwendet. Sie müssen Ihr eigenes ONNX -Modell für diesen Beispielcode angeben oder das Beispielmodell herunterladen (siehe Abschnitt "Senty Check unten).

Voraussetzungen

Getestet und an Ubuntu 20.04 und 22.04 arbeiten (Windows wird zu diesem Zeitpunkt nicht unterstützt)
Installieren Sie CUDA 11 oder 12, Anweisungen hier.
- Empfohlen> = 12.0
- Erforderlich> = 11.0
Installieren Sie Cudnn, Anweisungen hier.
- Erforderlich> = 8
- Erforderlich <9 (OpenCV GPU unterstützt noch nicht)
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev (zur Protokollierung)
Installieren Sie OpenCV mit CUDA -Unterstützung. Um OpenCV aus der Quelle zu kompilieren, führen Sie das Skript build_opencv.sh in ./scripts/ aus.
- Wenn Sie das bereitgestellte Skript verwenden und Cudnn an einem nicht standardmäßigen Standort installiert haben, müssen Sie die Variablen CUDNN_INCLUDE_DIR und CUDNN_LIBRARY im Skript ändern.
- Empfohlen> = 4,8
Laden Sie Tensorrt 10 von hier herunter.
- Erforderlich> = 10.0
Navigieren Sie zur Datei CMakeLists.txt und ersetzen Sie den TODO durch den Pfad zu Ihrer Tensorrt -Installation.

Bau der Bibliothek

mkdir build
cd build
cmake ..
make -j$(nproc)

Ausführen der ausführbaren Datei

Navigieren Sie zum Build -Verzeichnis
Führen Sie die ausführbare Datei aus und geben Sie den Pfad zu Ihrem ONNX -Modell.
ex. ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- HINWEIS: Weitere Anweisungen zum Erhalten des YOLOV8N -Modells finden Sie unten.
Wenn Sie die ausführbare Datei für ein bestimmtes Modell und Optionen zum ersten Mal ausführen, wird eine Tensorrt -Engine -Datei aus Ihrem ONNX -Modell erstellt. Dieser Vorgang ist ziemlich langsam und kann für einige Modelle (z. B. Yolo -Modelle) mehr als 5 Minuten dauern.
Alternativ können Sie Ihre eigene Tensorrt -Engine -Datei direkt zur Verfügung stellen:
ex. ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- HINWEIS: Siehe V5.0 Changelog unten für Warnungen, wenn Sie Ihre eigene Tensorrt -Engine -Datei liefern.

Vernunftprüfung

Laden Sie das YOLOv8n -Modell von hier herunter.
Konvertieren Sie es als nächstes mit dem folgenden Skript von Pytorch in ONNX:
- Sie müssen pip3 install ultralytics zuerst durchführen.

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

Platzieren Sie das resultierende ONNX -Modell, yolov8n.onnx , im Verzeichnis ./models/ .
Ausführen von Inferenz mit diesem Modell und dem Bild in ./inputs/team.jpg sollte den folgenden Feature -Vektor erzeugen:
- Hinweis: Der Merkmalsvektor ist nicht identisch (aber sehr ähnlich), da Tensorrt nicht deterministisch ist.

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

INT8 Inferenz

Durch die Aktivierung von INT8 -Präzision kann die Inferenz auf Kosten der Genauigkeitsreduzierung aufgrund des verringerten Dynamikbereichs weiter beschleunigt werden. Für die Int8 -Präzision muss der Benutzer Kalibrierungsdaten liefern, die für reale Daten repräsentativ sind, die das Modell angezeigt wird. Es wird empfohlen, 1K+ Kalibrierungsbilder zu verwenden. Um das Inferenz von INT8 mit dem Yolov8 -Vernunft -Check -Modell zu ermöglichen, müssen die folgenden Schritte unternommen werden:

options.precision = Precision::FP16; an options.precision = Precision::INT8; in main.cpp
options.calibrationDataDirectoryPath = ""; Muss in main.cpp geändert werden, um den Pfad anzugeben, der Kalibrierungsdaten enthält.
- Wenn Sie das YOLOV8 -Modell verwenden, wird empfohlen, den Coco -Validierungsdatensatz zu verwenden, der mit wget http://images.cocodataset.org/zips/val2017.zip heruntergeladen werden kann
Stellen Sie sicher, dass der Größencode in der Int8EntropyCalibrator2::getBatch -Methode in engine.cpp (siehe TODO ) für Ihr Modell korrekt ist.
- Wenn das Yolov8 -Modell verwendet wird, ist der Vorverarbeitungscode korrekt und muss nicht geändert werden.
Umkompilieren Sie die ausführbare Datei neu.
Der Kalibrierungs -Cache wird auf die Festplatte geschrieben ( .calibration ), damit er nach nachfolgenden Modelloptimierungen wiederverwendet werden kann. Wenn Sie die Kalibrierungsdaten regenerieren möchten, müssen Sie diese Cache -Datei löschen.
Wenn Sie einen Fehler "aus dem Speicher in der Funktion zuordnen" erhalten, müssen Sie Options.calibrationBatchSize reduzieren.

Benchmarks

Benchmarks laufen auf RTX 3050 Ti Laptop GPU, 11. Gen Intel (R) Core (TM) I9-11900H @ 2,50 GHz.

Modell	Präzision	Chargengröße	AVG Inferenzzeit
yolov8n	FP32	1	4,732 ms
yolov8n	FP16	1	2,493 ms
yolov8n	Int8	1	2.009 ms
yolov8x	FP32	1	76,63 ms
yolov8x	FP16	1	25.08 ms
yolov8x	Int8	1	11,62 ms

Probenintegration

Sie fragen sich, wie Sie diese Bibliothek in Ihr Projekt integrieren können? Oder wie man die Ausgänge des Yolov8 -Modells liest, um sinnvolle Informationen zu extrahieren? Wenn ja, sehen Sie sich meine beiden neuesten Projekte Yolov8-Tensorrt-CPP und Yolov9-Tensorrt-CPP an, die demonstrieren, wie die Tensorrt C ++ API zur Ausführung von Yolov8/9-Inferenz verwendet wird (unterstützt die Objekterkennung, semantische Segmentierung und die Schätzung der Körperbelastung). Sie nutzen dieses Projekt im Backend!

Projektstruktur

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

Den Code verstehen

Der größte Teil der Implementierung befindet sich in include/engine . Ich habe im gesamten Code viele Kommentare geschrieben, die es leicht machen sollten zu verstehen, was los ist.
Der Inferenzcode befindet sich in include/engine/EngineRunInference.inl .
Das Gebäude und das Laden der Tensorrt -Engine -Datei befinden sich in include/engine/EngineBuildLoadNetwork.inl .
Sie können auch mein tiefes Video ansehen, in dem ich jede Codezeile erkläre.

Wie man debugug

Die Implementierung verwendet die spdlog -Bibliothek zur Protokollierung. Sie können die Protokollebene ändern, indem Sie die Umgebungsvariable LOG_LEVEL auf einen der folgenden Werte einstellen: trace , debug , info , warn , error , critical , off .
Wenn Sie Probleme haben, die Tensorrt-Engine-Datei aus dem ONNX-Modell zu erstellen, sollten Sie die Umgebungsvariable LOG_LEVEL so festlegen, dass sie die Anwendung trace und erneut ausführen. Dies sollte Ihnen weitere Informationen darüber geben, wo genau der Erstellungsprozess fehlschlägt.

Zeigen Sie Ihre Wertschätzung

Wenn dieses Projekt für Sie hilfreich wäre, würde ich mich freuen, wenn Sie es einen Stern geben könnten. Dies wird mich ermutigen, sicherzustellen, dass es auf dem neuesten Stand ist und Probleme schnell lösen. Ich mache auch Beratungsarbeiten, wenn Sie genauere Hilfe benötigen. Verbinde dich mit mir auf LinkedIn.

Mitwirkende

_{Loic Tetrel}

_{Thomaskleiven}

_Wicyyn

Changelog

V6.0

Die Implementierung erfordert nun Tensorrt> = 10.0.

V5.0

Engine -Klasse wurde so geändert, dass ein Vorlagenparameter angewendet wird, der den Ausgangsdatentyp der Modelle angibt. Die Implementierung unterstützt nun Ausgänge vom Typ float , __half , int8_t , int32_t , bool und uint8_t .
Unterstützung für das Laden von Tensorrt -Engine -Datei direkt, ohne aus dem ONNX -Modell kompilieren zu müssen. Es wird dringend empfohlen, die API zur Erstellung der Motordatei aus dem ONNX -Modell zu verwenden, anstatt ein Tensorrt -Modell direkt zu laden. Wenn Sie eine Tensorrt-Modelldatei direkt laden möchten, müssen Sie die Options für Ihr Modell korrekt einstellen (beispielsweise, wenn Ihr Modell für FP32 kompiliert wurde, aber Sie versuchen, die FP16-Inferenz auszuführen, fällt dies möglicherweise ohne einen ausführlichen Fehler aus).
Befehlszeilen -Parser hinzugefügt.

V4.1

Unterstützung für feste Stapelgröße> 1 hinzugefügt.

V4.0

Unterstützung für Int8 -Präzision hinzugefügt.

V3.0

Die Implementierung wurde aktualisiert, um die Tensorrt 8.6 -API (z. B. IExecutionContext::enqueueV3() ) zu verwenden.
Die ausführbare Datei hat von driver in run_inference_benchmark umbenannt und muss nun als Befehlszeilenargument an das ONNX -Modell übergeben werden.
Entfernte Options.doesSupportDynamicBatchSize . Implementierung nun automatische Erkennungen unterstützte Stapelgrößen.
Entfernte Options.maxWorkspaceSize . Die Implementierung begrenzt nun nicht den GPU -Speicher während der Modellkonstruktionen, sodass die Implementierung so viel Speicherpool verwendet, wie für Zwischenschichten verfügbar sind.

v2.2

Serialisieren Sie den Modellnamen als Teil der Engine -Datei.

V2.1

Unterstützung für Modelle mit mehreren Eingängen hinzugefügt. Die Implementierung unterstützt nun Modelle mit einzelnen Eingängen, mehreren Eingängen, Einzelausgängen, mehreren Ausgängen und Batching.

V2.0

Erfordert OpenCV CUDA. Befolgen Sie hier Anweisungen, um sie zu installieren.
Options.optBatchSizes wurde entfernt, ersetzt durch Options.optBatchSize .
Unterstützen Sie Modelle mit mehr als einer einzigen Ausgabe (Ex. SCRFD).
Unterstützung für Modelle hinzugefügt, die die Stapel -Inferenz nicht unterstützen (die erste Eingangsdimension ist festgelegt).
Weitere Fehlerprüfung.
Es wurde eine Reihe gemeinsamer Probleme behoben, auf die die Leute mit der ursprünglichen V1.0 -Version befahren waren.
Entfernen Sie die Whitespace aus dem Gerätenamen der GPU