Download EfficientFormer - Download Kode Sumber EfficientFormer

EfficientFormer

ular piton

1.0.0

Unduh

EfisiensiFformerv2
_{Memikirkan kembali transformator penglihatan untuk ukuran dan kecepatan mobilenet}

arxiv | Pdf

Model dilatih di ImageNet-1K dan digunakan di iPhone 12 dengan coremltools untuk mendapatkan latensi.

Memikirkan kembali transformator penglihatan untuk ukuran dan kecepatan mobilenet
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios Evangelidis ¹ , Kamyar Salahi ³ ,
Yanzhi Wang ² , Sergey Tulyakov ¹ , Jian Ren ¹
¹ Snap Inc., ² Northeastern University, ³ UC Berkeley

Abstrak

Dengan keberhasilan Vision Transformers (VITS) dalam tugas visi komputer, seni terbaru mencoba mengoptimalkan kinerja dan kompleksitas VIT untuk memungkinkan penyebaran yang efisien pada perangkat seluler. Berbagai pendekatan diusulkan untuk mempercepat mekanisme perhatian, meningkatkan desain yang tidak efisien, atau menggabungkan konvolusi ringan yang ramah seluler untuk membentuk arsitektur hibrida. Namun, VIT dan variannya masih memiliki latensi yang lebih tinggi atau lebih banyak parameter lebih dari CNN ringan, bahkan berlaku untuk MobileNet yang berusia bertahun-tahun. Dalam praktiknya, latensi dan ukuran keduanya sangat penting untuk penyebaran yang efisien pada perangkat keras yang tidak konsisten dengan sumber daya. Dalam karya ini, kami menyelidiki pertanyaan sentral, dapatkah model transformator berjalan secepat MobileNet dan mempertahankan ukuran yang sama? Kami meninjau kembali pilihan desain Vits dan mengusulkan supernet yang ditingkatkan dengan latensi rendah dan efisiensi parameter tinggi. Kami selanjutnya memperkenalkan strategi pencarian bersama berbutir halus yang dapat menemukan arsitektur yang efisien dengan mengoptimalkan latensi dan jumlah parameter secara bersamaan. Model yang diusulkan, efisienFormerv2, mencapai akurasi top-1 sekitar 4% lebih tinggi daripada MobileNetV2 dan MobileNetV2x1.4 pada ImageNet-1K dengan latensi dan parameter yang sama. Kami menunjukkan bahwa transformator penglihatan yang dirancang dengan baik dan dioptimalkan dapat mencapai kinerja tinggi dengan ukuran dan kecepatan level mobileNet.

Changelog dan Todos

Tambahkan Keluarga Model EfficientFormERV2, termasuk efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 dan efficientformerv2_l .
Pos pemeriksaan pretrain dari EfficientFormerv2 pada ImageNet-1K dirilis.
Perbarui EfisiensiFormerv2 dalam tugas hilir (deteksi, segmentasi).
Lepaskan pos pemeriksaan dalam tugas hilir.
Tambahkan alat tambahan untuk profil dan penyebaran (kami menggunakan coreml == 5.2 dan torch == 1.11), contoh penggunaan:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

Lembaga yang efisien
_{Visi Transformers dengan kecepatan mobilenet}

arxiv | Pdf

Model dilatih di ImageNet-1K dan diukur oleh iPhone 12 dengan coremltools untuk mendapatkan latensi.

EfisienFormer: Visi Transformers dengan kecepatan mobileNet
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios Evangelidis ¹ ,
Sergey Tulyakov ¹ , Yanzhi Wang ² , Jian Ren ¹
¹ Snap Inc., ² Northeastern University

Abstrak

Vision Transformers (VIT) telah menunjukkan kemajuan yang cepat dalam tugas penglihatan komputer, mencapai hasil yang menjanjikan pada berbagai tolok ukur. Namun, karena jumlah besar parameter dan desain model, misalnya, mekanisme perhatian, model berbasis VIT umumnya lebih lambat daripada jaringan konvolusional yang ringan. Oleh karena itu, penyebaran VIT untuk aplikasi real-time sangat menantang, terutama pada perangkat keras yang dibatasi sumber daya seperti perangkat seluler. Upaya terbaru mencoba mengurangi kompleksitas perhitungan VIT melalui pencarian arsitektur jaringan atau desain hibrida dengan blok mobileNet, namun kecepatan inferensi masih tidak memuaskan. Ini mengarah pada pertanyaan penting: dapatkah transformer berjalan secepat MobileNet sambil mendapatkan kinerja tinggi? Untuk menjawab ini, pertama-tama kami meninjau kembali arsitektur jaringan dan operator yang digunakan dalam model berbasis VIT dan mengidentifikasi desain yang tidak efisien. Kemudian kami memperkenalkan transformator murni dimensi-konsisten (tanpa blok mobilenet) sebagai paradigma desain. Akhirnya, kami melakukan pelangsingan latensi yang digerakkan untuk mendapatkan serangkaian model akhir yang dijuluki efisien. Eksperimen ekstensif menunjukkan keunggulan penyumbat efisien dalam kinerja dan kecepatan pada perangkat seluler. Model tercepat kami, efisiensi-l1, mencapai akurasi top-1 79,2% pada ImageNet-1K dengan hanya 1,6 ms inferensi latensi pada iPhone 12 (dikompilasi dengan COREML), yang berjalan secepat MobileNetV2x1.4 (1,6 ms, 74,7% TOP-1), dan model terbesar kami, efisiensi efisiensi-l7, memperoleh 83.3%. Pekerjaan kami membuktikan bahwa transformator yang dirancang dengan baik dapat mencapai latensi yang sangat rendah pada perangkat seluler sambil mempertahankan kinerja tinggi.

Klasifikasi pada ImageNet-1K

Model

Model	Top-1 (300/450)	#params	Mac	Latensi	CKPT	Onnx	Coreml
EfisienFormerv2-s0	75.7 / 76.2	3.5m	0.40b	0,9 m	S0	S0	S0
EfisienFormerv2-s1	79.0 / 79.7	6.1m	0.65b	1.1ms	S1	S1	S1
EfisienFormerv2-s2	81.6 / 82.0	12.6m	1.25b	1,6 m	S2	S2	S2
EfisienFormerv2-l	83.3 / 83.5	26.1m	2.56b	2.7ms	L	L	L

Model	Top-1 Acc.	Latensi	Pekan pemeriksaan pytorch	Coreml	Onnx
EfisienFormer-L1	79.2 (80.2)	1,6 m	L1-300 (L1-1000)	L1	L1
EfisienFormer-L3	82.4	3.0ms	L3	L3	L3
EfisienFormer-L7	83.3	7.0ms	L7	L7	L7

Pengukuran latensi

Latensi yang dilaporkan dalam EffcientFormerv2 untuk iPhone 12 (iOS 16) menggunakan alat benchmark dari Xcode 14.

Untuk effcientformerv1, kami menggunakan kinerja coreml. Terima kasih atas pengukuran latensi yang diimplemen yang bagus!

Tips : MacOS+Xcode dan perangkat seluler (iPhone 12) diperlukan untuk mereproduksi kecepatan yang dilaporkan.

Imagenet

Prasyarat

Lingkungan virtual conda direkomendasikan.

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

Persiapan data

Unduh dan ekstrak gambar Train Imagenet dan Val dari http://image-net.org/. Data pelatihan dan validasi diharapkan berada di folder train dan folder val masing -masing:

 |-- /path/to/imagenet/
    |-- train
    |-- val

Pelatihan multi-GPU mesin tunggal

Kami memberikan contoh skrip pelatihan dist_train.sh menggunakan data paralel terdistribusi pytorch (DDP).

Untuk melatih L1 yang efisien dan efisien pada mesin 8-gpu:

 sh dist_train.sh efficientformer_l1 8

Tips: Tentukan jalur data Anda dan nama percobaan dalam skrip!

Pelatihan multi-node

Pada cluster yang dikelola slurm, pelatihan multi-node dapat diluncurkan melalui Submitit, misalnya,

 sh slurm_train.sh efficientformer_l1

Tips: Tentukan GPU/CPU/memori per node dalam skrip berdasarkan sumber daya Anda!

Pengujian

Kami memberikan contoh skrip uji dist_test.sh menggunakan data paralel terdistribusi pytorch (DDP). Misalnya, untuk menguji efisien-l1 pada mesin 8-gpu:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

Menggunakan Backbon Efficientformer sebagai Backbone

Deteksi objek dan segmentasi instance
Segmentasi semantik

Pengakuan

Basis kode klasifikasi (ImageNet) sebagian dibangun dengan levit dan poolformer.

Pipa deteksi dan segmentasi berasal dari MMCV (MMDETEKSI dan MMSMENTASI).

Terima kasih atas implementasi yang hebat!

Kutipan

Jika kode atau model kami membantu pekerjaan Anda, silakan mengutip EfficientFormer (Neurips 2022) dan EfficientFormerv2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}