تنزيل tensorrt cpp api - تنزيل رمز مصدر tensorrt cpp api

tensorrt cpp api

ج/ج++

1.0.0

تنزيل

شعار

Tensorrt C ++ API البرنامج التعليمي

كيفية استخدام API Tensorrt C ++ لاستدلال تعلم الآلة GPU عالي الأداء.
يدعم النماذج ذات المدخلات المفردة / المتعددة والمخرجات المفردة / المتعددة مع تجميع.

نظرة عامة على المشروع. رمز الفيديو العميق

تبحث عن المشرفين

يبحث هذا المشروع بنشاط عن المشرفين للمساعدة في توجيه نموه وتحسينه. إذا كنت متحمسًا لهذا المشروع وتهتم بالمساهمة ، فأنا أحب أن أسمع منك!

لا تتردد في التواصل عبر LinkedIn لمناقشة كيف يمكنك المشاركة.

Tensorrt C ++ البرنامج التعليمي

قرأت جميع مستندات Nvidia Tensorrt حتى لا تضطر!

يوضح هذا المشروع كيفية استخدام API Tensorrt C ++ لاستدلال GPU عالي الأداء على بيانات الصورة. ويغطي كيفية القيام بما يلي:

كيفية تثبيت Tensorrt 10 على Ubuntu 20.04 / 22.04.
كيفية إنشاء ملف محرك Tensorrt محسّن ل GPU الخاص بك.
كيفية تحديد ملف تعريف التحسين البسيط.
كيفية تشغيل FP32 أو FP16 أو Int8 الاستدلال الدقيق.
كيفية قراءة / كتابة البيانات من / إلى ذاكرة GPU والعمل مع صور GPU.
كيفية استخدام دفق CUDA لتشغيل الاستدلال غير المتزامن والتزامن لاحقًا.
كيفية العمل مع النماذج ذات الأحجام الثابتة والديناميكية.
كيفية العمل مع النماذج ذات الموترات المفردة أو المتعددة.
كيفية العمل مع النماذج مع مدخلات متعددة.
يتضمن تجول فيديو حيث أشرح كل سطر من الكود.
يمكن استخدام الرمز كقاعدة لأي نموذج يأخذ صورة / صور ثابتة الحجم كمدخل ، بما في ذلك arcface Insightface ، YOLOV8 ، SCRFD الوجه.
- ستحتاج فقط إلى تنفيذ رمز ما بعد المعالجة المناسب.
TODO: أضف دعمًا للنماذج ذات أشكال الإدخال الديناميكية.
TODO: أضف دعمًا لنظام التشغيل Windows

ابدء

تفترض التعليمات التالية أنك تستخدم Ubuntu 20.04 أو 22.04. ستحتاج إلى توفير نموذج ONNX الخاص بك لهذا الرمز النموذج أو يمكنك تنزيل نموذج العينة (انظر قسم التحقق من العقل أدناه).

المتطلبات الأساسية

تم اختباره والعمل على Ubuntu 20.04 و 22.04 ( لا يتم دعم Windows في هذا الوقت)
تثبيت CUDA 11 أو 12 ، التعليمات هنا.
- الموصى به> = 12.0
- مطلوب> = 11.0
تثبيت كودن ، التعليمات هنا.
- مطلوب> = 8
- مطلوب <9 (OpenCV GPU لا يدعم بعد)
sudo apt install build-essential
sudo snap install cmake --classic
sudo apt install libspdlog-dev libfmt-dev (للتسجيل)
تثبيت OpenCV مع دعم CUDA. لتجميع OpenCV من المصدر ، قم بتشغيل البرنامج النصي build_opencv.sh المتوفر في ./scripts/ .
- إذا كنت تستخدم البرنامج النصي المقدم وقمت بتثبيت CUDNN على موقع غير قياسي ، فيجب عليك تعديل متغيرات CUDNN_INCLUDE_DIR و CUDNN_LIBRARY في البرنامج النصي.
- الموصى به> = 4.8
تنزيل Tensorrt 10 من هنا.
- مطلوب> = 10.0
انتقل إلى ملف CMakeLists.txt واستبدل TODO بالمسار إلى تثبيت Tensorrt الخاص بك.

بناء المكتبة

mkdir build
cd build
cmake ..
make -j$(nproc)

تشغيل القابل للتنفيذ

انتقل إلى دليل البناء
قم بتشغيل القابلة للتنفيذ وقم بتوفير المسار إلى نموذج ONNX الخاص بك.
السابق. ./run_inference_benchmark --onnx_model ../models/yolov8n.onnx
- ملاحظة: راجع قسم فحص العقل أدناه للحصول على إرشادات حول كيفية الحصول على نموذج YOLOV8N.
في المرة الأولى التي تقوم فيها بتشغيل التنفيذ لنموذج وخيارات معينة ، سيتم بناء ملف محرك Tensorrt من طراز ONNX الخاص بك. هذه العملية بطيئة إلى حد ما ويمكن أن تستغرق 5+ دقائق لبعض النماذج (نماذج Yolo).
بدلاً من ذلك ، يمكنك اختيار توفير ملف محرك Tensorrt الخاص بك مباشرة:
السابق. ./run_inference_benchmark --trt_model ../models/yolov8n.engine.NVIDIAGeForceRTX3080LaptopGPU.fp16.1.1
- ملاحظة: انظر v5.0 changelog أدناه للحصول على تحذيرات عند توفير ملف محرك Tensorrt الخاص بك.

فحص العقل

لإجراء فحص عقل ، قم بتنزيل طراز YOLOv8n من هنا.
بعد ذلك ، قم بتحويله من Pytorch إلى Onnx باستخدام البرنامج النصي التالي:
- ستحتاج إلى تشغيل pip3 install ultralytics أولاً.

 from ultralytics import YOLO
model = YOLO ( "./yolov8n.pt" )
model . fuse ()
model . info ( verbose = False )  # Print model information
model . export ( format = "onnx" , opset = 12 ) # Export the model to onnx using opset 12

ضع نموذج ONNX الناتج ، yolov8n.onnx ، في دليل ./models/ .
يجب تشغيل الاستدلال باستخدام النموذج المذكور والصورة الموجودة في ./inputs/team.jpg أن ينتج عن متجه الميزة التالية:
- ملاحظة: لن يكون متجه الميزة متطابقًا (ولكنه مشابه جدًا) لأن Tensorrt ليس حتميًا.

 3.41113 16.5312 20.8828 29.8984 43.7266 54.9609 62.0625 65.8594 70.0312 72.9531 ...

Int8 الاستدلال

يمكن أن يؤدي التمكين الدقة int8 إلى زيادة تسريع الاستدلال بتكلفة الحد من الدقة بسبب انخفاض النطاق الديناميكي. بالنسبة لدقة int8 ، يجب على المستخدم توفير بيانات المعايرة التي تمثل البيانات الحقيقية التي سيشاهدها النموذج. ينصح باستخدام صور 1K+ المعايرة. لتمكين الاستدلال int8 مع نموذج فحص العقل yolov8 ، يجب اتخاذ الخطوات التالية:

تغيير options.precision = Precision::FP16; إلى options.precision = Precision::INT8; في main.cpp
options.calibrationDataDirectoryPath = ""; يجب تغييرها في main.cpp لتحديد مسار يحتوي على بيانات المعايرة.
- إذا كنت تستخدم نموذج YOLOV8 ، يُنصح باستخدام مجموعة بيانات التحقق من صحة COCO ، والتي يمكن تنزيلها باستخدام wget http://images.cocodataset.org/zips/val2017.zip
تأكد من أن الكود تغيير حجمه في طريقة Int8EntropyCalibrator2::getBatch TODO engine.cpp .
- إذا كان استخدام نموذج YOLOV8 ، فإن رمز المعالجة المسبقة صحيح ولا يلزم تغييره.
إعادة الترجمة ، تشغيل القابل للتنفيذ.
سيتم كتابة ذاكرة التخزين المؤقت للمعايرة إلى القرص ( .calibration . إذا كنت ترغب في تجديد بيانات المعايرة ، فيجب عليك حذف ملف ذاكرة التخزين المؤقت هذا.
إذا حصلت على خطأ "خارج الذاكرة في تخصيص الوظيفة" ، فيجب عليك تقليل Options.calibrationBatchSize .

المعايير

يتم تشغيل المعايير على RTX 3050 Ti Laptop GPU ، 11th Gen Intel (R) Core (TM) I9-11900H @ 2.50GHz.

نموذج	دقة	حجم الدُفعة	وقت الاستنتاج AVG
Yolov8n	FP32	1	4.732 مللي ثانية
Yolov8n	FP16	1	2.493 مللي ثانية
Yolov8n	int8	1	2.009 مللي ثانية
Yolov8x	FP32	1	76.63 مللي ثانية
Yolov8x	FP16	1	25.08 مللي ثانية
Yolov8x	int8	1	11.62 مللي ثانية

تكامل العينة

أتساءل عن كيفية دمج هذه المكتبة في مشروعك؟ أو ربما كيفية قراءة مخرجات نموذج YOLOV8 لاستخراج معلومات ذات معنى؟ إذا كان الأمر كذلك ، تحقق من آخر مشروعي ، هما yolov8-tensorrt-CPP و yolov9-tensorrt-CPP ، والذي يوضح كيفية استخدام API Tensorrt c ++ لتشغيل yolov8/9 (يدعم الكشف عن الكائنات ، والتجزئة الدلالية ، وتقدير تكوين الجسم). أنها تستفيد من هذا المشروع في الواجهة الخلفية!

هيكل المشروع

project-root/
├── include/
│   ├── engine/
│   │   ├── EngineRunInference.inl
│   │   ├── EngineUtilities.inl
│   │   └── EngineBuildLoadNetwork.inl
│   ├── util/...
│   ├── ...
├── src/
|   ├── ...
│   ├── engine.cpp
│   ├── engine.h
│   └── main.cpp
├── CMakeLists.txt
└── README.md

فهم الكود

يقع الجزء الأكبر من التنفيذ في include/engine . لقد كتبت الكثير من التعليقات في جميع أنحاء الكود والتي يجب أن تجعل من السهل فهم ما يجري.
يقع رمز الاستدلال في include/engine/EngineRunInference.inl .
يوجد بناء وتحميل ملف محرك Tensorrt في include/engine/EngineBuildLoadNetwork.inl .
يمكنك أيضًا الاطلاع على مقطع الفيديو العميق الذي أشرح فيه كل سطر من التعليمات البرمجية.

كيفية تصحيح

يستخدم التطبيق مكتبة spdlog للتسجيل. يمكنك تغيير مستوى السجل عن طريق ضبط Pheasor Variable LOG_LEVEL إلى إحدى القيم التالية: trace ، debug ، info ، warn ، error ، critical ، off .
إذا كانت لديك مشكلات في إنشاء ملف محرك Tensorrt من نموذج ONNX ، ففكر في تعيين LOG_LEVEL البيئة trace التطبيق وإعادة تشغيله. يجب أن يمنحك هذا مزيدًا من المعلومات حول المكان الذي تفشل فيه عملية الإنشاء بالضبط.

أظهر تقديرك

إذا كان هذا المشروع مفيدًا لك ، فسأقدر ما إذا كان بإمكانك إعطائه نجمًا. سيشجعني ذلك على ضمان تحديثه وحل المشكلات بسرعة. أقوم أيضًا بعمل استشاري إذا كنت بحاجة إلى مزيد من مساعدة محددة. تواصل معي على LinkedIn.

المساهمين

_{لويك تيتل}

_{Thomaskleiven}

_ويسين

Changelog

v6.0

يتطلب التنفيذ الآن tensorrt> = 10.0.

v5.0

تم تعديل فئة Engine لاتخاذ معلمة قالب تحدد نوع بيانات إخراج النماذج. يدعم التنفيذ الآن مخرجات Type float و __half و int8_t و int32_t و bool و uint8_t .
إضافة دعم لتحميل ملف محرك Tensorrt مباشرة دون الحاجة إلى التجميع من نموذج ONNX. Howver ، يوصى بشدة باستخدام واجهة برمجة التطبيقات المتوفرة لإنشاء ملف المحرك من نموذج ONNX ، بدلاً من تحميل نموذج Tensorrt مباشرة. إذا اخترت تحميل ملف طراز Tensorrt مباشرةً ، فيجب عليك التحقق يدويًا أن Options قد تم تعيينها بشكل صحيح لنموذجك (على سبيل المثال ، إذا تم تجميع النموذج الخاص بك لـ FP32 ولكنك تحاول تشغيل استنتاج FP16 ، فسوف يفشل ، وربما بدون خطأ مطوّل).
تمت إضافة محلل سطر الأوامر.

v4.1

وأضاف الدعم لحجم الدُفعة الثابتة> 1.

v4.0

وأضاف الدعم لدقة int8.

v3.0

تم تحديث التنفيذ لاستخدام Tensorrt 8.6 API (ex. IExecutionContext::enqueueV3() ).
تم إعادة تسمية Advantible من driver إلى run_inference_benchmark ، ويجب الآن نقل المسار إلى نموذج ONNX كوسيطة سطر الأوامر.
Options.doesSupportDynamicBatchSize إزالته. التنفيذ الآن الأعمدة التلقائية مدعومة بأحجام الدُفعات.
Options.maxWorkspaceSize إزالته. maxworkspaceize. لا يقتصر التنفيذ الآن على ذاكرة GPU أثناء إنشاءات النموذج ، مما يسمح للتنفيذ باستخدام أكبر قدر من تجمع الذاكرة المتاح للطبقات المتوسطة.

v2.2

تسلسل اسم النموذج كجزء من ملف المحرك.

v2.1

وأضاف الدعم للنماذج مع مدخلات متعددة. يدعم التنفيذ الآن النماذج ذات المدخلات المفردة ، والمدخلات المتعددة ، والمخرجات المفردة ، والمخرجات المتعددة ، والتجمع.

v2.0