arxiv | PDF

模型在Imagenet-1K上进行了培训,并在Coremltools上部署在iPhone 12上,以获得延迟。
重新考虑Mobilenet尺寸和速度的视觉变压器
Yanyu Li 1,2 ,Ju Hu 1 ,Yang Wen 1 ,Georgios Evangelidis 1 ,Kamyar Salahi 3 ,
Yanzhi Wang 2 ,Sergey Tulyakov 1 ,Jian Ren 1
1 Snap Inc., 2伯克利分校东北大学2号
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2和efficientformerv2_l 。 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | PDF

模型经过Imagenet-1K的培训,并通过iPhone 12和Coremltools测量以获得延迟。
有效形式:Mobilenet速度的视觉变压器
Yanyu Li 1,2 ,Genge Yuan 1,2 ,Yang Wen 1 ,Eric Hu 1 ,Georgios Evangelidis 1 ,
Sergey Tulyakov 1 ,Yanzhi Wang 2 ,Jian Ren 1
1西北大学2个Snap Inc.
| 模型 | TOP-1(300/450) | #params | Mac | 潜伏期 | ckpt | onnx | Coreml |
|---|---|---|---|---|---|---|---|
| 有效formformerv2-s0 | 75.7 / 76.2 | 3.5m | 0.40B | 0.9ms | S0 | S0 | S0 |
| 有效Formformerv2-S1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| 有效Formformerv2-S2 | 81.6 / 82.0 | 126m | 1.25b | 1.6ms | S2 | S2 | S2 |
| 有效formformerv2-l | 83.3 / 83.5 | 261m | 2.56b | 2.7ms | l | l | l |
| 模型 | TOP-1 ACC。 | 潜伏期 | Pytorch检查点 | Coreml | onnx |
|---|---|---|---|---|---|
| 有效Formformer-L1 | 79.2(80.2) | 1.6ms | L1-300(L1-1000) | L1 | L1 |
| 有效的形式-L3 | 82.4 | 3.0ms | L3 | L3 | L3 |
| 有效Formformer-L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
iPhone 12(iOS 16)在EffcientFormerv2中报告的延迟使用Xcode 14中的基准工具。
对于effcientformerv1,我们使用coreml-strumentance。感谢您进行的精美潜伏期测量!
提示:需要MACOS+XCODE和移动设备(iPhone 12)来复制报告的速度。
建议conda虚拟环境。
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
从http://image-net.org/下载并提取Imagenet火车和Val图像。培训和验证数据预计分别位于train文件夹和val文件夹中:
|-- /path/to/imagenet/
|-- train
|-- val
我们使用Pytorch分布式数据并行(DDP)提供了示例培训脚本dist_train.sh 。
在8-GPU机器上训练EdgitionFormer-L1:
sh dist_train.sh efficientformer_l1 8
提示:在脚本中指定您的数据路径和实验名称!
在由Slurm管理的集群中,可以通过提交来启动多节点培训
sh slurm_train.sh efficientformer_l1
提示:根据您的资源在脚本中指定每个节点的GPU/CPU/内存!
我们使用Pytorch分布式数据并行(DDP)提供了一个示例测试脚本dist_test.sh 。例如,要在8-GPU机器上测试ExtricforicyFormer-L1:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
对象检测和实例分段
语义细分
分类(Imagenet)代码库部分由Levit和Poomformer构建。
检测和分割管道来自MMCV(MMDETECTION和MMSENEVITATION)。
感谢您的出色实施!
如果我们的代码或模型对您的工作有所帮助,请引用EdgityFormer(Neurips 2022)和EfficityFormisterv2(ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}