تنزيل EfficientFormer - تنزيل رمز المصدر EfficientFormer

EfficientFormer

بايثون

1.0.0

تنزيل

كفاءة التكافؤ 2
_{إعادة التفكير في محولات الرؤية لحجم Mobilenet وسرعة}

Arxiv | PDF

يتم تدريب النماذج على ImageNet-1K ونشرها على iPhone 12 مع coremltools للحصول على الكمون.

إعادة التفكير في محولات الرؤية لحجم Mobilenet وسرعة
Yanyu Li ^1،2 ، Ju Hu ¹ ، Yang Wen ¹ ، Georgios Evangelidis ¹ ، Kamyar Salahi ³ ،
Yanzhi Wang ² ، Sergey Tulyakov ¹ ، Jian Ren ¹
¹ Snap Inc. ، ² Northeastern University ، ³ UC Berkeley

خلاصة

مع نجاح محولات الرؤية (VITS) في مهام رؤية الكمبيوتر ، تحاول الفنون الحديثة تحسين أداء وتعقيد Vits لتمكين النشر الفعال على الأجهزة المحمولة. تُقترح طرق متعددة لتسريع آلية الانتباه ، أو تحسين التصميمات غير الفعالة ، أو تضمين تلوينات خفيفة الوزن الصديقة للهاتف المحمول لتشكيل هيكل هجين. ومع ذلك ، لا يزال لدى VIT ومتغيراتها زمن استمرار أعلى أو معلمات أكثر بكثير من CNNs خفيفة الوزن ، حتى صحيح بالنسبة لموبلينيت منذ سنوات. في الممارسة العملية ، يعد زمن الوصول والحجم ضروريين للنشر الفعال على الأجهزة الموروثة بالموارد. في هذا العمل ، نتحقق من سؤال مركزي ، هل يمكن أن تعمل نماذج المحولات بسرعة مثل Mobilenet والحفاظ على حجم مماثل؟ نقوم بإعادة النظر في خيارات التصميم الخاصة بـ Vits ونقترح شبكة خارقة محسّنة مع كفاءة منخفضة وكفاءة عالية المعلمة. نقدم كذلك استراتيجية بحث مشتركة دقيقة يمكن أن تجد بنيات فعالة من خلال تحسين الكمون وعدد المعلمات في وقت واحد. تحقق النماذج المقترحة ، DefaiDformerv2 ، دقة أعلى من أعلى بنسبة 4 ٪ من Mobilenetv2 و Mobilenetv2x1.4 على ImageNet-1K مع الكمون والمعلمات المماثلة. نوضح أن محولات الرؤية المصممة والمحسّنة بشكل صحيح يمكن أن تحقق أداءً عالياً مع حجم وسرعة على مستوى موبيلينت.

Changelog و Todos

أضف عائلة نموذج DEFICTFormerV2 ، بما في ذلك efficientformerv2_s0 ، و efficientformerv2_s1 ، و efficientformerv2_s2 و efficientformerv2_l .
يتم إصدار نقاط التفتيش المسبقة لـ DefaiDformerv2 على ImageNet-1K.
تحديث كفاءة في مهام المصب (الكشف ، تجزئة).
تحرير نقاط التفتيش في مهام المصب.
أضف أدوات إضافية للتوصيف والنشر (نستخدم coreml == 5.2 و torch == 1.11) ، مثال على الاستخدام:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

كفاءة
_{محولات الرؤية بسرعة موبيلينيت}

Arxiv | PDF

يتم تدريب النماذج على ImageNet-1K وقياسها بواسطة iPhone 12 مع coremltools للحصول على الكمون.

كفاءة: محولات الرؤية في سرعة Mobilenet
Yanyu Li ^1،2 ، Genge Yuan ^1،2 ، Yang Wen ¹ ، Eric Hu ¹ ، Georgios Evangelidis ¹ ،
سيرجي تولياكوف ¹ ، يانزهي وانغ ² ، جيان رن ¹
¹ Snap Inc. ، ² جامعة شمال شرق

خلاصة

أظهرت محولات الرؤية (VIT) تقدمًا سريعًا في مهام رؤية الكمبيوتر ، وتحقيق نتائج واعدة على المعايير المختلفة. ومع ذلك ، نظرًا للعدد الهائل من المعلمات وتصميم النماذج ، على سبيل المثال ، آلية الانتباه ، تكون النماذج المستندة إلى VIT أبطأ بشكل عام من الشبكات التلافيفية الخفيفة. لذلك ، فإن نشر VIT للتطبيقات في الوقت الفعلي يمثل تحديًا بشكل خاص ، لا سيما على الأجهزة المقيدة بالموارد مثل الأجهزة المحمولة. تحاول الجهود الحديثة تقليل تعقيد حساب VIT من خلال البحث عن بنية الشبكة أو التصميم الهجين مع كتلة Mobilenet ، ومع ذلك لا تزال سرعة الاستدلال غير مرضية. هذا يؤدي إلى سؤال مهم: هل يمكن أن تعمل المحولات بأسرع ما هي موبيلينيت أثناء الحصول على أداء عالي؟ للإجابة على هذا ، نقوم أولاً بإعادة النظر في بنية الشبكة والمشغلين المستخدمة في النماذج المستندة إلى VIT وتحديد التصميمات غير الفعالة. ثم نقدم محولًا نقيًا متناسقًا للأبعاد (بدون كتل Mobilenet) كنموذج تصميم. أخيرًا ، نقوم بإجراء التخسيس القائم على الكمون للحصول على سلسلة من النماذج النهائية التي يطلق عليها Defbedfortformer. تُظهر التجارب المكثفة تفوق الأداء الفعال في الأداء والسرعة على الأجهزة المحمولة. يحقق طرازنا الأسرع ، الفعال-L1 ، 79.2 ٪ من الدقة الأولى 1 على ImageNet-1K مع فقط 1.6 مللي ثانية من زمن الاستنتاج على iPhone 12 (تم تجميعه باستخدام COREML) ، والذي يمتد بسرعة مثل Mobilenetv2x1.4 (1.6 مللي ثانية ، 74.7 ٪ أعلى 1) ، ونموذجنا الأكبر ، فعال -3 ، يحصل على 83.3 ٪ فقط. يثبت عملنا أن المحولات المصممة بشكل صحيح يمكن أن تصل إلى زمن انتقال منخفض للغاية على الأجهزة المحمولة مع الحفاظ على الأداء العالي.

تصنيف على ImageNet-1k

النماذج

نموذج	Top-1 (300/450)	#Params	ماك	كمون	CKPT	onnx	Coreml
DefaiDformerv2-S0	75.7 / 76.2	3.5m	0.40B	0.9ms	S0	S0	S0
DefaiDformerv2-S1	79.0 / 79.7	6.1m	0.65B	1.1 مللي ثانية	S1	S1	S1
Defianfformerv2-S2	81.6 / 82.0	12.6 م	1.25 ب	1.6 مللي ثانية	S2	S2	S2
كفاءة التكافؤ2-ل	83.3 / 83.5	26.1m	2.56 ب	2.7 مللي ثانية	ل	ل	ل

نموذج	أعلى 1 ACC.	كمون	نقطة تفتيش Pytorch	Coreml	onnx
كفاءة التكافؤ-L1	79.2 (80.2)	1.6 مللي ثانية	L1-300 (L1-1000)	L1	L1
كفاءة التكافؤ-L3	82.4	3.0 مللي ثانية	L3	L3	L3
كفاءة التكافؤ-L7	83.3	7.0ms	L7	L7	L7

قياس الكمون

يستخدم الكمون المبلغ عنه في EffCientFormerv2 لـ iPhone 12 (iOS 16) الأداة القياسية من XCode 14.

بالنسبة لـ EffCientFormerv1 ، نستخدم أداء Coreml. شكرا لقياس الكمون الذي تم تنفيذه لطيف!

نصائح : هناك حاجة إلى MacOS+Xcode وجهاز محمول (iPhone 12) لإعادة إنتاج السرعة المبلغ عنها.

ImageNet

المتطلبات الأساسية

يوصى بالبيئة الافتراضية conda .

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

إعداد البيانات

قم بتنزيل واستخراج صور ImageNet Train و Val من http://image-net.org/. من المتوقع أن تكون بيانات التدريب والتحقق في مجلد train ومجلد val على التوالي:

 |-- /path/to/imagenet/
    |-- train
    |-- val

تدريب واحد متعدد الجهاز GPU

نحن نقدم مثالا على درب البرنامج النصي dist_train.sh باستخدام البيانات الموزعة pytorch متوازية (DDP).

لتدريب كفاءة في الآلة 8-GPU:

 sh dist_train.sh efficientformer_l1 8

نصائح: حدد مسار البيانات واسم التجربة في البرنامج النصي!

تدريب متعدد العقدة

على مجموعة مديرة تديرها slurm ، يمكن إطلاق التدريب متعدد العقدة من خلال تقديم ، على سبيل المثال ،

 sh slurm_train.sh efficientformer_l1

نصائح: حدد وحدات معالجة الرسومات/وحدات المعالجة المركزية/الذاكرة لكل عقدة في البرنامج النصي بناءً على المورد الخاص بك!

الاختبار

نحن نقدم مثالًا على Test Script dist_test.sh باستخدام بيانات Pytorch الموزعة الموازية (DDP). على سبيل المثال ، لاختبار كفاءة في الجهاز 8-GPU:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

باستخدام كفاءة في العمود الفقري

اكتشاف الكائنات وتجزئة المثيل
تجزئة الدلالية

شكر وتقدير

تم تصميم قاعدة كود التصنيف (ImageNet) جزئيًا باستخدام Levit و Poolformer.

خط أنابيب الكشف والتجزئة هو من MMCV (MMDetection و MMSegressation).

شكرا للتطبيقات الرائعة!

اقتباس

إذا كانت الكود أو النماذج الخاصة بنا تساعد في عملك ، فيرجى الاستشهاد بكفاءة (Neups 2022) و efficafformerv2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}