arxiv | PDF

模型在Imagenet-1K上進行了培訓,並在Coremltools上部署在iPhone 12上,以獲得延遲。
重新考慮Mobilenet尺寸和速度的視覺變壓器
Yanyu Li 1,2 ,Ju Hu 1 ,Yang Wen 1 ,Georgios Evangelidis 1 ,Kamyar Salahi 3 ,
Yanzhi Wang 2 ,Sergey Tulyakov 1 ,Jian Ren 1
1 Snap Inc., 2伯克利分校東北大學2號
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2和efficientformerv2_l 。 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | PDF

模型經過Imagenet-1K的培訓,並通過iPhone 12和Coremltools測量以獲得延遲。
有效形式:Mobilenet速度的視覺變壓器
Yanyu Li 1,2 ,Genge Yuan 1,2 ,Yang Wen 1 ,Eric Hu 1 ,Georgios Evangelidis 1 ,
Sergey Tulyakov 1 ,Yanzhi Wang 2 ,Jian Ren 1
1西北大學2個Snap Inc.
| 模型 | TOP-1(300/450) | #params | Mac | 潛伏期 | ckpt | onnx | Coreml |
|---|---|---|---|---|---|---|---|
| 有效formformerv2-s0 | 75.7 / 76.2 | 3.5m | 0.40B | 0.9ms | S0 | S0 | S0 |
| 有效Formformerv2-S1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| 有效Formformerv2-S2 | 81.6 / 82.0 | 126m | 1.25b | 1.6ms | S2 | S2 | S2 |
| 有效formformerv2-l | 83.3 / 83.5 | 261m | 2.56b | 2.7ms | l | l | l |
| 模型 | TOP-1 ACC。 | 潛伏期 | Pytorch檢查點 | Coreml | onnx |
|---|---|---|---|---|---|
| 有效Formformer-L1 | 79.2(80.2) | 1.6ms | L1-300(L1-1000) | L1 | L1 |
| 有效的形式-L3 | 82.4 | 3.0ms | L3 | L3 | L3 |
| 有效Formformer-L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
iPhone 12(iOS 16)在EffcientFormerv2中報告的延遲使用Xcode 14中的基準工具。
對於effcientformerv1,我們使用coreml-strumentance。感謝您進行的精美潛伏期測量!
提示:需要MACOS+XCODE和移動設備(iPhone 12)來複製報告的速度。
建議conda虛擬環境。
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
從http://image-net.org/下載並提取Imagenet火車和Val圖像。培訓和驗證數據預計分別位於train文件夾和val文件夾中:
|-- /path/to/imagenet/
|-- train
|-- val
我們使用Pytorch分佈式數據並行(DDP)提供了示例培訓腳本dist_train.sh 。
在8-GPU機器上訓練EdgitionFormer-L1:
sh dist_train.sh efficientformer_l1 8
提示:在腳本中指定您的數據路徑和實驗名稱!
在由Slurm管理的集群中,可以通過提交來啟動多節點培訓
sh slurm_train.sh efficientformer_l1
提示:根據您的資源在腳本中指定每個節點的GPU/CPU/內存!
我們使用Pytorch分佈式數據並行(DDP)提供了一個示例測試腳本dist_test.sh 。例如,要在8-GPU機器上測試ExtricforicyFormer-L1:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
對象檢測和實例分段
語義細分
分類(Imagenet)代碼庫部分由Levit和Poomformer構建。
檢測和分割管道來自MMCV(MMDETECTION和MMSENEVITATION)。
感謝您的出色實施!
如果我們的代碼或模型對您的工作有所幫助,請引用EdgityFormer(Neurips 2022)和EfficityFormisterv2(ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}