arxiv | Pdf

Model dilatih di ImageNet-1K dan digunakan di iPhone 12 dengan coremltools untuk mendapatkan latensi.
Memikirkan kembali transformator penglihatan untuk ukuran dan kecepatan mobilenet
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Yanzhi Wang 2 , Sergey Tulyakov 1 , Jian Ren 1
1 Snap Inc., 2 Northeastern University, 3 UC Berkeley
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 dan efficientformerv2_l . python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | Pdf

Model dilatih di ImageNet-1K dan diukur oleh iPhone 12 dengan coremltools untuk mendapatkan latensi.
EfisienFormer: Visi Transformers dengan kecepatan mobileNet
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios Evangelidis 1 ,
Sergey Tulyakov 1 , Yanzhi Wang 2 , Jian Ren 1
1 Snap Inc., 2 Northeastern University
| Model | Top-1 (300/450) | #params | Mac | Latensi | CKPT | Onnx | Coreml |
|---|---|---|---|---|---|---|---|
| EfisienFormerv2-s0 | 75.7 / 76.2 | 3.5m | 0.40b | 0,9 m | S0 | S0 | S0 |
| EfisienFormerv2-s1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| EfisienFormerv2-s2 | 81.6 / 82.0 | 12.6m | 1.25b | 1,6 m | S2 | S2 | S2 |
| EfisienFormerv2-l | 83.3 / 83.5 | 26.1m | 2.56b | 2.7ms | L | L | L |
| Model | Top-1 Acc. | Latensi | Pekan pemeriksaan pytorch | Coreml | Onnx |
|---|---|---|---|---|---|
| EfisienFormer-L1 | 79.2 (80.2) | 1,6 m | L1-300 (L1-1000) | L1 | L1 |
| EfisienFormer-L3 | 82.4 | 3.0ms | L3 | L3 | L3 |
| EfisienFormer-L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
Latensi yang dilaporkan dalam EffcientFormerv2 untuk iPhone 12 (iOS 16) menggunakan alat benchmark dari Xcode 14.
Untuk effcientformerv1, kami menggunakan kinerja coreml. Terima kasih atas pengukuran latensi yang diimplemen yang bagus!
Tips : MacOS+Xcode dan perangkat seluler (iPhone 12) diperlukan untuk mereproduksi kecepatan yang dilaporkan.
Lingkungan virtual conda direkomendasikan.
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
Unduh dan ekstrak gambar Train Imagenet dan Val dari http://image-net.org/. Data pelatihan dan validasi diharapkan berada di folder train dan folder val masing -masing:
|-- /path/to/imagenet/
|-- train
|-- val
Kami memberikan contoh skrip pelatihan dist_train.sh menggunakan data paralel terdistribusi pytorch (DDP).
Untuk melatih L1 yang efisien dan efisien pada mesin 8-gpu:
sh dist_train.sh efficientformer_l1 8
Tips: Tentukan jalur data Anda dan nama percobaan dalam skrip!
Pada cluster yang dikelola slurm, pelatihan multi-node dapat diluncurkan melalui Submitit, misalnya,
sh slurm_train.sh efficientformer_l1
Tips: Tentukan GPU/CPU/memori per node dalam skrip berdasarkan sumber daya Anda!
Kami memberikan contoh skrip uji dist_test.sh menggunakan data paralel terdistribusi pytorch (DDP). Misalnya, untuk menguji efisien-l1 pada mesin 8-gpu:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
Deteksi objek dan segmentasi instance
Segmentasi semantik
Basis kode klasifikasi (ImageNet) sebagian dibangun dengan levit dan poolformer.
Pipa deteksi dan segmentasi berasal dari MMCV (MMDETEKSI dan MMSMENTASI).
Terima kasih atas implementasi yang hebat!
Jika kode atau model kami membantu pekerjaan Anda, silakan mengutip EfficientFormer (Neurips 2022) dan EfficientFormerv2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}