Unduh tensorrt cpp api - Unduh Kode Sumber tensorrt cpp api

tensorrt cpp api

C/C++

1.0.0

Unduh

logo

Tutorial Tensorrt C ++ API

Cara menggunakan TensorRt C ++ API untuk inferensi pembelajaran mesin GPU berkinerja tinggi.
Mendukung model dengan input tunggal / ganda dan output tunggal / ganda dengan batching.

Video Tinjauan Proyek. Kode video penyelaman dalam

Mencari pengelola

Proyek ini secara aktif mencari pengelola untuk membantu memandu pertumbuhan dan peningkatannya. Jika Anda bersemangat tentang proyek ini dan tertarik untuk berkontribusi, saya ingin mendengar dari Anda!

Jangan ragu untuk menghubungi melalui LinkedIn untuk membahas bagaimana Anda bisa terlibat.

Tutorial Tensorrt C ++

Saya membaca semua dokumen NVIDIA Tensorrt sehingga Anda tidak perlu melakukannya!

Proyek ini menunjukkan cara menggunakan API Tensorrt C ++ untuk inferensi GPU kinerja tinggi pada data gambar. Itu mencakup cara melakukan hal berikut:

Cara Menginstal Tensorrt 10 di Ubuntu 20.04 / 22.04.
Cara Menghasilkan File Mesin Tensorrt Dioptimalkan untuk GPU Anda.
Cara menentukan profil optimasi sederhana.
Cara menjalankan inferensi presisi FP32, FP16, atau Int8.
Cara membaca / menulis data dari / ke dalam memori GPU dan bekerja dengan gambar GPU.
Cara menggunakan aliran CUDA untuk menjalankan inferensi async dan kemudian menyinkronkan.
Cara bekerja dengan model dengan ukuran batch statis dan dinamis.
Cara bekerja dengan model dengan tensor output tunggal atau ganda.
Cara bekerja dengan model dengan beberapa input.
Termasuk walkthrough video di mana saya menjelaskan setiap baris kode.
Kode ini dapat digunakan sebagai basis untuk model apa pun yang mengambil gambar / gambar ukuran tetap sebagai input, termasuk Insightface Arcface, YOLOV8, Deteksi Wajah SCRFD.
- Anda hanya perlu mengimplementasikan kode pasca pemrosesan yang sesuai.
TODO: Tambahkan dukungan untuk model dengan bentuk input dinamis.
TODO: Tambahkan dukungan untuk windows

Memulai

Instruksi berikut menganggap Anda menggunakan Ubuntu 20.04 atau 22.04. Anda perlu menyediakan model ONNX Anda sendiri untuk kode sampel ini atau Anda dapat mengunduh model sampel (lihat bagian Periksa Sanity di bawah).

Prasyarat

Diuji dan Bekerja di Ubuntu 20.04 dan 22.04 (Windows tidak didukung saat ini)
Instal CUDA 11 atau 12, instruksi di sini.
- Direkomendasikan> = 12.0
- Diperlukan> = 11.0
Instal Cudnn, instruksi di sini.
- Diperlukan> = 8
- Diperlukan <9 (OpenCV GPU belum mendukung)
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev (untuk logging)
Instal OpenCV dengan dukungan CUDA. Untuk mengkompilasi opencv dari sumber, jalankan skrip build_opencv.sh yang disediakan di ./scripts/ .
- Jika Anda menggunakan skrip yang disediakan dan Anda telah menginstal cudnn ke lokasi non-standar, Anda harus memodifikasi variabel CUDNN_INCLUDE_DIR dan CUDNN_LIBRARY dalam skrip.
- Direkomendasikan> = 4.8
Unduh Tensorrt 10 dari sini.
- Diperlukan> = 10.0
Arahkan ke file CMakeLists.txt dan ganti TODO dengan jalur ke instalasi Tensorrt Anda.

Membangun Perpustakaan

mkdir build
cd build
cmake ..
make -j$(nproc)

Menjalankan yang dapat dieksekusi

Arahkan ke Direktori Bangun
Jalankan yang dapat dieksekusi dan berikan jalur ke model ONNX Anda.
mantan. ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- CATATAN: Lihat bagian Periksa Sanity di bawah ini untuk instruksi tentang cara mendapatkan model YOLOV8N.
Pertama kali Anda menjalankan yang dapat dieksekusi untuk model dan opsi yang diberikan, file mesin TensorRT akan dibangun dari model ONNX Anda. Proses ini cukup lambat dan dapat memakan waktu 5+ menit untuk beberapa model (mis. Model Yolo).
Atau, Anda dapat memilih untuk memasok file mesin TensorRT Anda sendiri secara langsung:
mantan. ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- Catatan: Lihat v5.0 Changelog di bawah ini untuk peringatan saat memasok file mesin Tensorrt Anda sendiri.

Cek kewarasan

Untuk melakukan pemeriksaan kewarasan, unduh model YOLOv8n dari sini.
Selanjutnya, konversinya dari Pytorch ke Onnx menggunakan skrip berikut:
- Anda perlu menjalankan pip3 install ultralytics terlebih dahulu.

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

Tempatkan model ONNX yang dihasilkan, yolov8n.onnx , di direktori ./models/ .
Menjalankan inferensi menggunakan model tersebut dan gambar yang terletak di ./inputs/team.jpg harus menghasilkan vektor fitur berikut:
- CATATAN: Vektor fitur tidak akan identik (tetapi sangat mirip) karena Tensorrt tidak deterministik.

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

Inferensi Int8

Mengaktifkan presisi INT8 selanjutnya dapat mempercepat inferensi dengan biaya pengurangan akurasi karena berkurangnya rentang dinamis. Untuk presisi int8, pengguna harus menyediakan data kalibrasi yang mewakili data nyata yang akan dilihat model. Disarankan untuk menggunakan gambar kalibrasi 1K+. Untuk mengaktifkan inferensi int8 dengan model pemeriksaan Sanity YOLOV8, langkah -langkah berikut harus diambil:

Ubah options.precision = Precision::FP16; ke options.precision = Precision::INT8; di main.cpp
options.calibrationDataDirectoryPath = ""; harus diubah di main.cpp untuk menentukan jalur yang mengandung data kalibrasi.
- Jika menggunakan model YOLOV8, disarankan untuk menggunakan dataset validasi Coco, yang dapat diunduh dengan wget http://images.cocodataset.org/zips/val2017.zip
Pastikan kode pengubah ukuran di Int8EntropyCalibrator2::getBatch Method in engine.cpp (lihat TODO ) benar untuk model Anda.
- Jika menggunakan model YOLOV8, kode preprocessing benar dan tidak perlu diubah.
Kompilasi ulang, jalankan yang dapat dieksekusi.
Cache kalibrasi akan ditulis ke disk ( .calibration ekstensi) sehingga pada optimasi model selanjutnya dapat digunakan kembali. Jika Anda ingin meregenerasi data kalibrasi, Anda harus menghapus file cache ini.
Jika Anda mendapatkan kesalahan "di luar memori dalam fungsi alokasi", maka Anda harus mengurangi Options.calibrationBatchSize .

Tolok ukur

Benchmark dijalankan pada RTX 3050 Ti Laptop GPU, 11th Gen Intel (R) Core (TM) I9-11900H @ 2.50GHz.

Model	Presisi	Ukuran batch	Waktu inferensi rata -rata
yolov8n	FP32	1	4,732 ms
yolov8n	FP16	1	2.493 ms
yolov8n	Int8	1	2,009 ms
yolov8x	FP32	1	76,63 ms
yolov8x	FP16	1	25.08 ms
yolov8x	Int8	1	11.62 ms

Integrasi sampel

Ingin tahu bagaimana mengintegrasikan perpustakaan ini ke dalam proyek Anda? Atau mungkin cara membaca output model YOLOV8 untuk mengekstrak informasi yang bermakna? Jika demikian, periksa dua proyek terbaru saya, YOLOV8-TENSORRT-CPP dan YOLOV9-TENSORRT-CPP, yang menunjukkan cara menggunakan Tensorrt C ++ API untuk menjalankan inferensi YOLOV8/9 (mendukung deteksi objek, segmentasi semantik, dan estimasi pose tubuh). Mereka memanfaatkan proyek ini di backend!

Struktur proyek

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

Memahami kode

Sebagian besar implementasi terletak di include/engine . Saya telah menulis banyak komentar di seluruh kode yang seharusnya memudahkan untuk memahami apa yang sedang terjadi.
Kode inferensi terletak di include/engine/EngineRunInference.inl .
Bangunan dan pemuatan file mesin Tensorrt terletak di include/engine/EngineBuildLoadNetwork.inl .
Anda juga dapat melihat video penyelaman dalam saya di mana saya menjelaskan setiap baris kode.

Cara men -debug

Implementasi menggunakan pustaka spdlog untuk logging. Anda dapat mengubah level log dengan mengatur variabel lingkungan LOG_LEVEL ke salah satu nilai berikut: trace , debug , info , warn , error , critical , off .
Jika Anda memiliki masalah membuat file mesin TensorRT dari model ONNX, pertimbangkan untuk mengatur variabel lingkungan LOG_LEVEL untuk trace dan menjalankan kembali aplikasi. Ini harus memberi Anda lebih banyak informasi tentang di mana tepatnya proses pembangunan gagal.

Tunjukkan apresiasi Anda

Jika proyek ini bermanfaat bagi Anda, saya akan sangat menghargai jika Anda bisa memberikannya bintang. Itu akan mendorong saya untuk memastikannya terkini dan memecahkan masalah dengan cepat. Saya juga melakukan pekerjaan konsultasi jika Anda memerlukan bantuan yang lebih spesifik. Terhubung dengan saya di LinkedIn.

Kontributor

_{Loic Tetrel}

_{Thomaskleiven}

_Wicyn

Changelog

V6.0

Implementasi sekarang membutuhkan TensorRT> = 10.0.

V5.0

Kelas Engine telah dimodifikasi untuk mengambil parameter template yang menentukan tipe data output model. Implementasinya sekarang mendukung output tipe float , __half , int8_t , int32_t , bool , dan uint8_t .
Dukungan tambahan untuk memuat file mesin Tensorrt secara langsung tanpa perlu dikompilasi dari model ONNX. Howver, sangat disarankan agar Anda menggunakan API yang disediakan untuk membangun file mesin dari model ONNX, alih -alih memuat model Tensorrt secara langsung. Jika Anda memilih untuk memuat file model Tensorrt secara langsung, Anda harus memeriksa tangan bahwa Options telah diatur dengan benar untuk model Anda (misalnya, jika model Anda telah dikompilasi untuk FP32 tetapi Anda mencoba menjalankan inferensi FP16, itu akan gagal, berpotensi tanpa kesalahan verbose).
Menambahkan parser baris perintah.

V4.1

Dukungan tambahan untuk ukuran batch tetap> 1.

V4.0

Menambahkan dukungan untuk presisi int8.

V3.0

Implementasi telah diperbarui untuk menggunakan Tensorrt 8.6 API (mis. IExecutionContext::enqueueV3() ).
Executable telah berganti nama dari driver menjadi run_inference_benchmark dan sekarang harus diteruskan jalur ke model onnx sebagai argumen baris perintah.
Options.doesSupportDynamicBatchSize yang Dihapus.doessupportdynamicBatchSize. Implementasi sekarang deteksi otomatis mendukung ukuran batch.
Options.maxWorkspaceSize yang Dihapus.MaxWorkspacessize. Implementasi sekarang tidak membatasi memori GPU selama konstruksi model, memungkinkan implementasi untuk menggunakan kumpulan memori sebanyak yang tersedia untuk lapisan perantara.

v2.2

Serialize nama model sebagai bagian dari file mesin.

V2.1

Dukungan tambahan untuk model dengan beberapa input. Implementasi sekarang mendukung model dengan input tunggal, beberapa input, output tunggal, output berganda, dan batching.

V2.0

Membutuhkan OpenCV CUDA untuk diinstal. Untuk menginstal, ikuti instruksi di sini.
Options.optBatchSizes telah dihapus, diganti dengan Options.optBatchSize .
Model dukungan dengan lebih dari satu output (Kel. SCRFD).
Dukungan tambahan untuk model yang tidak mendukung inferensi batch (dimensi input pertama diperbaiki).
Lebih banyak pemeriksaan kesalahan.
Memperbaiki banyak masalah umum yang ditemui orang dengan versi V1.0 asli.
Hapus Whitespace dari nama perangkat GPU