Arxiv | PDF

Modelle werden auf ImageNet-1K trainiert und auf dem iPhone 12 mit Coremltools eingesetzt, um eine Latenz zu erhalten.
Sehtransformatoren für Mobilenetgröße und Geschwindigkeit überdenken
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Yanzhi Wang 2 , Sergey Tulyakov 1 , Jian Ren 1
1 Snap Inc., 2 Northeastern University, 3 UC Berkeley
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 und efficientformerv2_l . python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
Arxiv | PDF

Modelle werden auf ImageNet-1K trainiert und mit Coremltools mit dem iPhone 12 gemessen, um eine Latenz zu erhalten.
Effizienterformer: Vision -Transformatoren bei Mobilenet -Geschwindigkeit
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios Evangelidis 1 ,
Sergey Tulyakov 1 , Yanzhi Wang 2 , Jian Ren 1
1 Snap Inc., 2 Northeastern University
| Modell | Top-1 (300/450) | #params | Macs | Latenz | CKPT | Onnx | Coreml |
|---|---|---|---|---|---|---|---|
| Effizientesformerv2-s0 | 75.7 / 76.2 | 3,5 m | 0,40b | 0,9 ms | S0 | S0 | S0 |
| Effizientesformerv2-s1 | 79.0 / 79.7 | 6,1 m | 0,65b | 1.1 ms | S1 | S1 | S1 |
| Effizientesformerv2-s2 | 81.6 / 82.0 | 12,6 m | 1.25b | 1,6 ms | S2 | S2 | S2 |
| Effizientesformerv2-l | 83.3 / 83.5 | 26,1 m | 2.56b | 2,7 ms | L | L | L |
| Modell | Top-1 ACC. | Latenz | Pytorch Checkpoint | Coreml | Onnx |
|---|---|---|---|---|---|
| Effizientforscher-l1 | 79,2 (80,2) | 1,6 ms | L1-300 (L1-1000) | L1 | L1 |
| Effizientforscher-l3 | 82.4 | 3.0 ms | L3 | L3 | L3 |
| Effizienterformer-l7 | 83.3 | 7,0 ms | L7 | L7 | L7 |
Die in effcientFormerv2 für iPhone 12 (iOS 16) angegebene Latenz verwendet das Benchmark -Tool von Xcode 14.
Für effcientFormerv1 verwenden wir die Coreml-Performance. Vielen Dank für die netter implementierte Latenzmessung!
Tipps : MacOS+Xcode und ein mobiles Gerät (iPhone 12) werden benötigt, um die gemeldete Geschwindigkeit zu reproduzieren.
conda -Umgebung wird empfohlen.
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
Download und extrahieren Sie imageNet-Zug und Valblattbilder von http://image-net.org/. Die Schulungs- und Validierungsdaten werden voraussichtlich im train und val liegen:
|-- /path/to/imagenet/
|-- train
|-- val
Wir bieten ein Beispiel für das Trainingsskript dist_train.sh unter Verwendung von Pytorch Distributed Data Parallel (DDP).
So schulen Sie effizientes Former-L1 auf einer 8-GPU-Maschine:
sh dist_train.sh efficientformer_l1 8
Tipps: Geben Sie Ihren Datenpfad und Ihren Experimentnamen im Skript an!
Auf einem schlampenverwalteten Cluster kann beispielsweise über Subschritte gemacht werden.
sh slurm_train.sh efficientformer_l1
Tipps: Geben Sie GPUS/CPUS/Speicher pro Knoten im Skript basierend auf Ihrer Ressource an!
Wir bieten ein Beispiel für Testscript dist_test.sh unter Verwendung von Pytorch Distributed Data Parallel (DDP). Zum Beispiel zum Testen von Efficienziforen-L1 auf einer 8-GPU-Maschine:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
Objekterkennung und Instanzsegmentierung
Semantische Segmentierung
Codes -Basis der Klassifizierung (ImageNet) ist teilweise mit Levit und Poolformer erstellt.
Die Erkennungs- und Segmentierungspipeline stammt von MMCV (MMDetektion und MMSegmentierung).
Danke für die großartigen Implementierungen!
Wenn unser Code oder unsere Modelle Ihrer Arbeit helfen, zitieren Sie bitte den Efficienzifaldieator (Neurips 2022) und effizientformerv2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}