arXiv | Pdf

Les modèles sont formés sur ImageNet-1k et déployés sur iPhone 12 avec Coremltools pour obtenir la latence.
Repenser les transformateurs de vision pour la taille et la vitesse des mobilenets
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Yanzhi Wang 2 , Sergey Tulyakov 1 , Jian Ren 1
1 Snap Inc., 2 Northeastern University, 3 UC Berkeley
efficientformerv2_l famille de modèles efficace efficientformerv2_s0 , y compris efficientformerv2_s1 , efficientformerv2_s2 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arXiv | Pdf

Les modèles sont formés sur ImageNet-1k et mesurés par iPhone 12 avec Coremltools pour obtenir la latence.
EfficientFormer: Vision Transformers à Mobilenet Speed
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios evangelidis 1 ,
Sergey Tulyakov 1 , Yanzhi Wang 2 , Jian Ren 1
1 Snap Inc., 2 Université du Nord-Est
| Modèle | Top-1 (300/450) | #params | Macs | Latence | CKPT | Onnx | Coreml |
|---|---|---|---|---|---|---|---|
| EfficientFormerv2-S0 | 75.7 / 76.2 | 3,5 m | 0,40b | 0,9 ms | S0 | S0 | S0 |
| Efficace | 79.0 / 79.7 | 6,1 m | 0,65b | 1,1 ms | S1 | S1 | S1 |
| Efficace | 81.6 / 82.0 | 12,6 m | 1.25b | 1,6 ms | S2 | S2 | S2 |
| Efficace | 83.3 / 83.5 | 26.1M | 2.56b | 2,7 ms | L | L | L |
| Modèle | Top-1 Acc. | Latence | Point de contrôle Pytorch | Coreml | Onnx |
|---|---|---|---|---|---|
| EfficientFormer-L1 | 79.2 (80.2) | 1,6 ms | L1-300 (L1-1000) | L1 | L1 |
| EfficientFormer-L3 | 82.4 | 3,0 ms | L3 | L3 | L3 |
| EfficientFormer-L7 | 83.3 | 7,0 mm | L7 | L7 | L7 |
La latence rapportée dans EffCIENTformerv2 pour iPhone 12 (iOS 16) utilise l'outil de référence de Xcode 14.
Pour EffCIENTformerv1, nous utilisons la performance coreml. Merci pour la mesure de latence bien mise en œuvre!
Conseils : MacOS + Xcode et un appareil mobile (iPhone 12) sont nécessaires pour reproduire la vitesse signalée.
L'environnement virtuel conda est recommandé.
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
Télécharger et extraire des images de train ImageNet et Val de http://image-net.org/. Les données de formation et de validation devraient être respectivement dans le dossier train et le dossier val :
|-- /path/to/imagenet/
|-- train
|-- val
Nous fournissons un exemple de script de formation dist_train.sh à l'aide de données distribuées parallèles (DDP) de Pytorch (DDP).
Pour former EfficientFormer-L1 sur une machine à 8-GPU:
sh dist_train.sh efficientformer_l1 8
Conseils: spécifiez votre chemin de données et le nom d'expérience dans le script!
Sur un cluster géré par Slurm, la formation multi-nœuds peut être lancée via Soumitit, par exemple,
sh slurm_train.sh efficientformer_l1
Conseils: spécifiez les GPU / CPU / mémoire par nœud dans le script en fonction de votre ressource!
Nous fournissons un exemple de script de test dist_test.sh à l'aide de données distribuées parallèles (DDP) de Pytorch (DDP). Par exemple, pour tester EfficientFormer-L1 sur une machine 8-GPU:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
Détection d'objet et segmentation des instances
Segmentation sémantique
La base de code de classification (ImageNet) est partiellement construite avec LEVIT et PoolFormer.
Le pipeline de détection et de segmentation provient de MMCV (MMDection et MMSEgmentation).
Merci pour les grandes implémentations!
Si notre code ou nos modèles aident votre travail, veuillez citer EfficientFormer (NIRIPS 2022) et EfficientFormerV2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}