Arxiv | PDF

يتم تدريب النماذج على ImageNet-1K ونشرها على iPhone 12 مع coremltools للحصول على الكمون.
إعادة التفكير في محولات الرؤية لحجم Mobilenet وسرعة
Yanyu Li 1،2 ، Ju Hu 1 ، Yang Wen 1 ، Georgios Evangelidis 1 ، Kamyar Salahi 3 ،
Yanzhi Wang 2 ، Sergey Tulyakov 1 ، Jian Ren 1
1 Snap Inc. ، 2 Northeastern University ، 3 UC Berkeley
efficientformerv2_s0 ، و efficientformerv2_s1 ، و efficientformerv2_s2 و efficientformerv2_l . python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
Arxiv | PDF

يتم تدريب النماذج على ImageNet-1K وقياسها بواسطة iPhone 12 مع coremltools للحصول على الكمون.
كفاءة: محولات الرؤية في سرعة Mobilenet
Yanyu Li 1،2 ، Genge Yuan 1،2 ، Yang Wen 1 ، Eric Hu 1 ، Georgios Evangelidis 1 ،
سيرجي تولياكوف 1 ، يانزهي وانغ 2 ، جيان رن 1
1 Snap Inc. ، 2 جامعة شمال شرق
| نموذج | Top-1 (300/450) | #Params | ماك | كمون | CKPT | onnx | Coreml |
|---|---|---|---|---|---|---|---|
| DefaiDformerv2-S0 | 75.7 / 76.2 | 3.5m | 0.40B | 0.9ms | S0 | S0 | S0 |
| DefaiDformerv2-S1 | 79.0 / 79.7 | 6.1m | 0.65B | 1.1 مللي ثانية | S1 | S1 | S1 |
| Defianfformerv2-S2 | 81.6 / 82.0 | 12.6 م | 1.25 ب | 1.6 مللي ثانية | S2 | S2 | S2 |
| كفاءة التكافؤ2-ل | 83.3 / 83.5 | 26.1m | 2.56 ب | 2.7 مللي ثانية | ل | ل | ل |
| نموذج | أعلى 1 ACC. | كمون | نقطة تفتيش Pytorch | Coreml | onnx |
|---|---|---|---|---|---|
| كفاءة التكافؤ-L1 | 79.2 (80.2) | 1.6 مللي ثانية | L1-300 (L1-1000) | L1 | L1 |
| كفاءة التكافؤ-L3 | 82.4 | 3.0 مللي ثانية | L3 | L3 | L3 |
| كفاءة التكافؤ-L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
يستخدم الكمون المبلغ عنه في EffCientFormerv2 لـ iPhone 12 (iOS 16) الأداة القياسية من XCode 14.
بالنسبة لـ EffCientFormerv1 ، نستخدم أداء Coreml. شكرا لقياس الكمون الذي تم تنفيذه لطيف!
نصائح : هناك حاجة إلى MacOS+Xcode وجهاز محمول (iPhone 12) لإعادة إنتاج السرعة المبلغ عنها.
يوصى بالبيئة الافتراضية conda .
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
قم بتنزيل واستخراج صور ImageNet Train و Val من http://image-net.org/. من المتوقع أن تكون بيانات التدريب والتحقق في مجلد train ومجلد val على التوالي:
|-- /path/to/imagenet/
|-- train
|-- val
نحن نقدم مثالا على درب البرنامج النصي dist_train.sh باستخدام البيانات الموزعة pytorch متوازية (DDP).
لتدريب كفاءة في الآلة 8-GPU:
sh dist_train.sh efficientformer_l1 8
نصائح: حدد مسار البيانات واسم التجربة في البرنامج النصي!
على مجموعة مديرة تديرها slurm ، يمكن إطلاق التدريب متعدد العقدة من خلال تقديم ، على سبيل المثال ،
sh slurm_train.sh efficientformer_l1
نصائح: حدد وحدات معالجة الرسومات/وحدات المعالجة المركزية/الذاكرة لكل عقدة في البرنامج النصي بناءً على المورد الخاص بك!
نحن نقدم مثالًا على Test Script dist_test.sh باستخدام بيانات Pytorch الموزعة الموازية (DDP). على سبيل المثال ، لاختبار كفاءة في الجهاز 8-GPU:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
اكتشاف الكائنات وتجزئة المثيل
تجزئة الدلالية
تم تصميم قاعدة كود التصنيف (ImageNet) جزئيًا باستخدام Levit و Poolformer.
خط أنابيب الكشف والتجزئة هو من MMCV (MMDetection و MMSegressation).
شكرا للتطبيقات الرائعة!
إذا كانت الكود أو النماذج الخاصة بنا تساعد في عملك ، فيرجى الاستشهاد بكفاءة (Neups 2022) و efficafformerv2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}