Download EfficientFormer - Download EfficientFormer Quellcode

EfficientFormer

Python

1.0.0

Herunterladen

Effizientesformerv2
_{Sehtransformatoren für Mobilenetgröße und Geschwindigkeit überdenken}

Arxiv | PDF

Modelle werden auf ImageNet-1K trainiert und auf dem iPhone 12 mit Coremltools eingesetzt, um eine Latenz zu erhalten.

Sehtransformatoren für Mobilenetgröße und Geschwindigkeit überdenken
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios Evangelidis ¹ , Kamyar Salahi ³ ,
Yanzhi Wang ² , Sergey Tulyakov ¹ , Jian Ren ¹
¹ Snap Inc., ² Northeastern University, ³ UC Berkeley

Abstrakt

Mit dem Erfolg von Vision Transformers (VITs) bei Computer Vision -Aufgaben versuchen jüngste Kunst, die Leistung und Komplexität von Vits zu optimieren, um eine effiziente Bereitstellung auf mobilen Geräten zu ermöglichen. Es werden mehrere Ansätze vorgeschlagen, um den Aufmerksamkeitsmechanismus zu beschleunigen, ineffiziente Konstruktionen zu verbessern oder mobilfreundliche leichte Konvolutionen zur Bildung von Hybridarchitekturen einzubeziehen. Vit und seine Varianten haben jedoch immer noch eine höhere Latenz oder erheblich mehr Parameter als leichte CNNs, sogar für das jahrelange Mobilenet. In der Praxis sind Latenz und Größe sowohl für die effiziente Bereitstellung für Hardware für Ressourcenkonstruktionen von entscheidender Bedeutung. In dieser Arbeit untersuchen wir eine zentrale Frage, können Transformatormodelle so schnell wie Mobileet laufen und eine ähnliche Größe aufrechterhalten? Wir werden die Entwurfsmöglichkeiten von Vits überprüft und ein verbessertes Supernet mit geringer Latenz und hoher Parameter -Effizienz vorschlagen. Wir führen ferner eine feinkörnige gemeinsame Suchstrategie ein, die effiziente Architekturen finden kann, indem sie die Latenz und die Anzahl der Parameter gleichzeitig optimieren. Die vorgeschlagenen Modelle, EfficienzipieFerv2, erreichen etwa 4% höhere Top-1-Genauigkeit als Mobilenetv2 und Mobilenetv2x1.4 auf ImageNet-1K mit ähnlichen Latenz und Parametern. Wir zeigen, dass richtig gestaltete und optimierte Vision-Transformatoren eine hohe Leistung mit Größe und Geschwindigkeit auf Mobilenetebene erzielen können.

Changelog und Todos

Fügen Sie effizientes ForMerv2 -Modellfamilie hinzu, einschließlich efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 und efficientformerv2_l .
Vorbereitete Checkpoints von effizientemAbformerv2 auf ImageNET-1K werden freigegeben.
Aktualisieren Sie Efficienzipieverv2 in nachgeschalteten Aufgaben (Erkennung, Segmentierung).
Lösen Sie Kontrollpunkte in nachgeschalteten Aufgaben.
Fügen Sie zusätzliche Tools zum Profilerstellen und Bereitstellungen hinzu (wir verwenden coreml == 5.2 und Torch == 1.11), Beispielanwendungen:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

Effizienterforscher
_{Sehtransformatoren bei Mobilenet -Geschwindigkeit}

Arxiv | PDF

Modelle werden auf ImageNet-1K trainiert und mit Coremltools mit dem iPhone 12 gemessen, um eine Latenz zu erhalten.

Effizienterformer: Vision -Transformatoren bei Mobilenet -Geschwindigkeit
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios Evangelidis ¹ ,
Sergey Tulyakov ¹ , Yanzhi Wang ² , Jian Ren ¹
¹ Snap Inc., ² Northeastern University

Abstrakt

Vision -Transformatoren (VIT) haben einen schnellen Fortschritt bei Computer -Vision -Aufgaben gezeigt und vielversprechende Ergebnisse bei verschiedenen Benchmarks erzielt. Aufgrund der riesigen Anzahl von Parametern und Modelldesign, z. B. Aufmerksamkeitsmechanismus, sind VIT-basierte Modelle jedoch im Allgemeinen langsamer als leichte Faltungsnetzwerke. Daher ist die Bereitstellung von VIT für Echtzeit-Anwendungen besonders schwierig, insbesondere für ressourcenbezogene Hardware wie mobile Geräte. Jüngste Bemühungen versuchen, die Berechnungskomplexität von VIT durch die Suche nach Netzwerkarchitektur oder Hybriddesign mit Mobilenet -Block zu verringern. Die Inferenzgeschwindigkeit ist jedoch immer noch unbefriedigend. Dies führt zu einer wichtigen Frage: Können Transformatoren so schnell wie Mobilenet laufen und gleichzeitig eine hohe Leistung erzielen? Um dies zu beantworten, besuchen wir zunächst die Netzwerkarchitektur und die in VIT-basierten Modellen verwendeten Betreiber und identifizieren ineffiziente Designs. Dann stellen wir einen dimensionskonsistenten reinen Transformator (ohne Mobilenet-Blöcke) als Design-Paradigma ein. Schließlich führen wir eine latenzgetriebene Abschlüsselung durch, um eine Reihe endgültiger Modelle mit dem Namen Efficientformer zu erhalten. Umfangreiche Experimente zeigen die Überlegenheit des effizienten Leistungsscheifers und der Geschwindigkeit auf mobilen Geräten. Unser schnellstes Modell, Efficusimformer-L1, erreicht bei ImageNet-1K 79,2% der Top-1-Genauigkeit mit nur 1,6 ms Inferenzlatenz auf dem iPhone 12 (kompiliert mit Coreml), das so schnell läuft wie Mobilenetv2x1.4 (1,6 MS, 74,7% Top-1) und unsere schwere MS-Läder, Effizienz-Lats, 7,3% und 7,3% und 83.3% und 83.3% und 83.3% und 83.3% und 83.3% und 83.3% und 83.3% und 83.3% und 83,3% und 83.3% und 83,3% und 7,3% und 83. Unsere Arbeit beweist, dass ordnungsgemäß gestaltete Transformatoren auf mobilen Geräten eine extrem geringe Latenz erreichen und gleichzeitig eine hohe Leistung aufrechterhalten können.

Klassifizierung auf ImageNet-1K

Modelle

Modell	Top-1 (300/450)	#params	Macs	Latenz	CKPT	Onnx	Coreml
Effizientesformerv2-s0	75.7 / 76.2	3,5 m	0,40b	0,9 ms	S0	S0	S0
Effizientesformerv2-s1	79.0 / 79.7	6,1 m	0,65b	1.1 ms	S1	S1	S1
Effizientesformerv2-s2	81.6 / 82.0	12,6 m	1.25b	1,6 ms	S2	S2	S2
Effizientesformerv2-l	83.3 / 83.5	26,1 m	2.56b	2,7 ms	L	L	L

Modell	Top-1 ACC.	Latenz	Pytorch Checkpoint	Coreml	Onnx
Effizientforscher-l1	79,2 (80,2)	1,6 ms	L1-300 (L1-1000)	L1	L1
Effizientforscher-l3	82.4	3.0 ms	L3	L3	L3
Effizienterformer-l7	83.3	7,0 ms	L7	L7	L7

Latenzmessung

Die in effcientFormerv2 für iPhone 12 (iOS 16) angegebene Latenz verwendet das Benchmark -Tool von Xcode 14.

Für effcientFormerv1 verwenden wir die Coreml-Performance. Vielen Dank für die netter implementierte Latenzmessung!

Tipps : MacOS+Xcode und ein mobiles Gerät (iPhone 12) werden benötigt, um die gemeldete Geschwindigkeit zu reproduzieren.

Bildnische

Voraussetzungen

conda -Umgebung wird empfohlen.

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

Datenvorbereitung

Download und extrahieren Sie imageNet-Zug und Valblattbilder von http://image-net.org/. Die Schulungs- und Validierungsdaten werden voraussichtlich im train und val liegen:

 |-- /path/to/imagenet/
    |-- train
    |-- val

Einzelmaschinen-Multi-GPU-Training

Wir bieten ein Beispiel für das Trainingsskript dist_train.sh unter Verwendung von Pytorch Distributed Data Parallel (DDP).

So schulen Sie effizientes Former-L1 auf einer 8-GPU-Maschine:

 sh dist_train.sh efficientformer_l1 8

Tipps: Geben Sie Ihren Datenpfad und Ihren Experimentnamen im Skript an!

Multi-Knoten-Training

Auf einem schlampenverwalteten Cluster kann beispielsweise über Subschritte gemacht werden.

 sh slurm_train.sh efficientformer_l1

Tipps: Geben Sie GPUS/CPUS/Speicher pro Knoten im Skript basierend auf Ihrer Ressource an!

Testen

Wir bieten ein Beispiel für Testscript dist_test.sh unter Verwendung von Pytorch Distributed Data Parallel (DDP). Zum Beispiel zum Testen von Efficienziforen-L1 auf einer 8-GPU-Maschine:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

Verwenden von Efficienziforen als Rückgrat

Objekterkennung und Instanzsegmentierung
Semantische Segmentierung

Anerkennung

Codes -Basis der Klassifizierung (ImageNet) ist teilweise mit Levit und Poolformer erstellt.

Die Erkennungs- und Segmentierungspipeline stammt von MMCV (MMDetektion und MMSegmentierung).

Danke für die großartigen Implementierungen!

Zitat

Wenn unser Code oder unsere Modelle Ihrer Arbeit helfen, zitieren Sie bitte den Efficienzifaldieator (Neurips 2022) und effizientformerv2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}