Téléchargement EfficientFormer - Téléchargement du code source EfficientFormer

EfficientFormer

Python

1.0.0

Télécharger

Efficace
_{Repenser les transformateurs de vision pour la taille et la vitesse des mobilenets}

arXiv | Pdf

Les modèles sont formés sur ImageNet-1k et déployés sur iPhone 12 avec Coremltools pour obtenir la latence.

Repenser les transformateurs de vision pour la taille et la vitesse des mobilenets
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios Evangelidis ¹ , Kamyar Salahi ³ ,
Yanzhi Wang ² , Sergey Tulyakov ¹ , Jian Ren ¹
¹ Snap Inc., ² Northeastern University, ³ UC Berkeley

Abstrait

Avec le succès des transformateurs de vision (VITS) dans les tâches de vision par ordinateur, les arts récents tentent d'optimiser les performances et la complexité des VITS pour permettre un déploiement efficace sur les appareils mobiles. Plusieurs approches sont proposées pour accélérer le mécanisme d'attention, améliorer les conceptions inefficaces ou incorporer des convolutions légères adaptées aux mobiles pour former des architectures hybrides. Cependant, Vit et ses variantes ont encore une latence plus élevée ou beaucoup plus de paramètres que les CNN légers, même vrai pour le mobilenet vieux. En pratique, la latence et la taille sont toutes deux cruciales pour un déploiement efficace sur le matériel de contrainte des ressources. Dans ce travail, nous étudions une question centrale, les modèles de transformateurs peuvent-ils fonctionner aussi rapidement que MobileNet et maintenir une taille similaire? Nous revisitons les choix de conception des VITS et proposons un Supernet amélioré avec une faible latence et une efficacité des paramètres élevés. Nous introduisons en outre une stratégie de recherche conjointe à grain fin qui peut trouver des architectures efficaces en optimisant simultanément le nombre de paramètres. Les modèles proposés, EfficientForMerv2, atteignent une précision supérieure d'environ 4% plus élevée que MobileNetV2 et MobileNetv2x1.4 sur ImageNet-1k avec une latence et des paramètres similaires. Nous démontrons que les transformateurs de vision correctement conçus et optimisés peuvent obtenir des performances élevées avec la taille et la vitesse au niveau de MobileNet.

Changelog et Todos

Ajoutez efficientformerv2_l famille de modèles efficace efficientformerv2_s0 , y compris efficientformerv2_s1 , efficientformerv2_s2
Des points de contrôle pré-entraînés d'EfficientFormerV2 sur ImageNet-1k sont libérés.
Mettez à jour EfficientFormerv2 dans les tâches en aval (détection, segmentation).
Libérez les points de contrôle dans les tâches en aval.
Ajouter des outils supplémentaires pour le profilage et le déploiement (nous utilisons CoreMl == 5.2 et Torch == 1.11), exemple utilisation:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

Efficace efficace
_{Vision Transformers à Mobilenet Speed}

arXiv | Pdf

Les modèles sont formés sur ImageNet-1k et mesurés par iPhone 12 avec Coremltools pour obtenir la latence.

EfficientFormer: Vision Transformers à Mobilenet Speed
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios evangelidis ¹ ,
Sergey Tulyakov ¹ , Yanzhi Wang ² , Jian Ren ¹
¹ Snap Inc., ² Université du Nord-Est

Abstrait

Les transformateurs de vision (VIT) ont montré des progrès rapides dans les tâches de vision par ordinateur, obtenant des résultats prometteurs sur diverses références. Cependant, en raison du nombre massif de paramètres et de conception de modèles, par exemple, le mécanisme d'attention, les modèles basés sur VIT sont généralement plus lents que les réseaux convolutionnels légers. Par conséquent, le déploiement de VIT pour les applications en temps réel est particulièrement difficile, en particulier sur le matériel limité aux ressources tels que les appareils mobiles. Les efforts récents tentent de réduire la complexité de calcul de la VIT par la recherche d'architecture de réseau ou la conception hybride avec un bloc mobilenet, mais la vitesse d'inférence n'est toujours pas satisfaisante. Cela conduit à une question importante: les transformateurs peuvent-ils fonctionner aussi vite que MobileNet tout en obtenant des performances élevées? Pour répondre à cela, nous revisitons d'abord l'architecture du réseau et les opérateurs utilisés dans des modèles basés sur VIT et identifions des conceptions inefficaces. Ensuite, nous introduisons un transformateur pur compatible dimension (sans blocs de mobilenet) comme paradigme de conception. Enfin, nous effectuons des amincissement axés sur la latence pour obtenir une série de modèles finaux surnommés EfficientFormer. Des expériences approfondies montrent la supériorité de l'efficacité de performances et de vitesse sur les appareils mobiles. Notre modèle le plus rapide, EfficientFormer-L1, atteint une précision de 79,2% du top-1 sur ImageNet-1k avec seulement 1,6 ms de latence d'inférence sur l'iPhone 12 (compilé avec COREML), qui fonctionne aussi vite que MobileNetV2X1.4 (1,6 ms, 74,7% TOP-1), et notre plus grand modèle, efficace-L7, obtient 83.3% à une accumulation avec seulement 7,0 ms. Nos travaux prouvent que les transformateurs correctement conçus peuvent atteindre une latence extrêmement faible sur les appareils mobiles tout en conservant des performances élevées.

Classification sur ImageNet-1k

Modèles

Modèle	Top-1 (300/450)	#params	Macs	Latence	CKPT	Onnx	Coreml
EfficientFormerv2-S0	75.7 / 76.2	3,5 m	0,40b	0,9 ms	S0	S0	S0
Efficace	79.0 / 79.7	6,1 m	0,65b	1,1 ms	S1	S1	S1
Efficace	81.6 / 82.0	12,6 m	1.25b	1,6 ms	S2	S2	S2
Efficace	83.3 / 83.5	26.1M	2.56b	2,7 ms	L	L	L

Modèle	Top-1 Acc.	Latence	Point de contrôle Pytorch	Coreml	Onnx
EfficientFormer-L1	79.2 (80.2)	1,6 ms	L1-300 (L1-1000)	L1	L1
EfficientFormer-L3	82.4	3,0 ms	L3	L3	L3
EfficientFormer-L7	83.3	7,0 mm	L7	L7	L7

Mesure de latence

La latence rapportée dans EffCIENTformerv2 pour iPhone 12 (iOS 16) utilise l'outil de référence de Xcode 14.

Pour EffCIENTformerv1, nous utilisons la performance coreml. Merci pour la mesure de latence bien mise en œuvre!

Conseils : MacOS + Xcode et un appareil mobile (iPhone 12) sont nécessaires pour reproduire la vitesse signalée.

Imagenet

Condition préalable

L'environnement virtuel conda est recommandé.

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

Préparation des données

Télécharger et extraire des images de train ImageNet et Val de http://image-net.org/. Les données de formation et de validation devraient être respectivement dans le dossier train et le dossier val :

 |-- /path/to/imagenet/
    |-- train
    |-- val

Formation multi-GPU à machine unique

Nous fournissons un exemple de script de formation dist_train.sh à l'aide de données distribuées parallèles (DDP) de Pytorch (DDP).

Pour former EfficientFormer-L1 sur une machine à 8-GPU:

 sh dist_train.sh efficientformer_l1 8

Conseils: spécifiez votre chemin de données et le nom d'expérience dans le script!

Formation multi-nœuds

Sur un cluster géré par Slurm, la formation multi-nœuds peut être lancée via Soumitit, par exemple,

 sh slurm_train.sh efficientformer_l1

Conseils: spécifiez les GPU / CPU / mémoire par nœud dans le script en fonction de votre ressource!

Essai

Nous fournissons un exemple de script de test dist_test.sh à l'aide de données distribuées parallèles (DDP) de Pytorch (DDP). Par exemple, pour tester EfficientFormer-L1 sur une machine 8-GPU:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

Utilisation d'EfficientFormer comme épine dorsale

Détection d'objet et segmentation des instances
Segmentation sémantique

Reconnaissance

La base de code de classification (ImageNet) est partiellement construite avec LEVIT et PoolFormer.

Le pipeline de détection et de segmentation provient de MMCV (MMDection et MMSEgmentation).

Merci pour les grandes implémentations!

Citation

Si notre code ou nos modèles aident votre travail, veuillez citer EfficientFormer (NIRIPS 2022) et EfficientFormerV2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}