EfficientFormer下载 - EfficientFormer图源代码下载

EfficientFormer

Python

1.0.0

下载

有效Formformerv2
_{重新考虑Mobilenet尺寸和速度的视觉变压器}

arxiv | PDF

模型在Imagenet-1K上进行了培训，并在Coremltools上部署在iPhone 12上，以获得延迟。

重新考虑Mobilenet尺寸和速度的视觉变压器
Yanyu Li ^1,2 ，Ju Hu ¹ ，Yang Wen ¹ ，Georgios Evangelidis ¹ ，Kamyar Salahi ³ ，
Yanzhi Wang ² ，Sergey Tulyakov ¹ ，Jian Ren ¹
¹ Snap Inc.， ²伯克利分校东北大学^2号

抽象的

随着视觉变压器（VIT）在计算机视觉任务中的成功，最近的艺术试图优化VIT的性能和复杂性，以便在移动设备上有效部署。提出了多种方法来加速注意力机制，提高效率低下的设计或结合移动友好的轻量级卷积以形成混合体系结构。但是，VIT及其变体仍然具有更高的延迟或比轻量级CNN的参数更高，甚至在过去的Mobilenet中是正确的。实际上，延迟和尺寸对于在资源构成硬件上有效部署都至关重要。在这项工作中，我们研究了一个中心问题，变压器模型可以像Mobilenet一样快地运行并保持相似的尺寸吗？我们重新审视VIT的设计选择，并提出一个具有低潜伏期和高参数效率的改进的超级网。我们进一步介绍了一种细粒的关节搜索策略，该策略可以通过同时优化参数和参数数量来找到有效的架构。提出的模型有效ForsicFormerv2在ImabiLenetV2和Mobilenetv2x1.4上，在具有相似延迟和参数的Imagenet-1K上，TOP-1精确度高4％。我们证明，正确设计和优化的视觉变压器可以使用Mobilenet级的尺寸和速度来实现高性能。

Changelog和Todos

添加ExtificFormerv2型号，包括efficientformerv2_s0 ， efficientformerv2_s1 ， efficientformerv2_s2和efficientformerv2_l 。
释放了Imagenet-1K上有效Formformerv2的验证检查点。
在下游任务（检测，细分）中更新EdgitificFormerv2。
在下游任务中释放检查点。
添加用于分析和部署的额外工具（我们使用Coreml == 5.2和TORCH == 1.11），示例用法：

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

有效形式
_{Mobilenet速度的视觉变压器}

arxiv | PDF

模型经过Imagenet-1K的培训，并通过iPhone 12和Coremltools测量以获得延迟。

有效形式：Mobilenet速度的视觉变压器
Yanyu Li ^1,2 ，Genge Yuan ^1,2 ，Yang Wen ¹ ，Eric Hu ¹ ，Georgios Evangelidis ¹ ，
Sergey Tulyakov ¹ ，Yanzhi Wang ² ，Jian Ren ¹
¹西北大学^2个Snap Inc.

抽象的

视觉变压器（VIT）显示了计算机视觉任务的快速进步，在各种基准上取得了令人鼓舞的结果。但是，由于参数和模型设计数量的数量大量，例如，注意机制，基于VIT的模型通常比轻型卷积网络慢。因此，为实时应用程序部署VIT特别具有挑战性，尤其是在资源受限的硬件（例如移动设备）上。最近的努力试图通过网络体系结构搜索或与Mobilenet块的混合设计来降低VIT的计算复杂性，但推理速度仍然不令人满意。这导致了一个重要的问题：变形金刚在获得高性能的同时可以像Mobilenet一样快吗？为了回答这一点，我们首先重新访问基于VIT的模型中使用的网络体系结构和运营商，并确定效率低下的设计。然后，我们引入了一个尺寸一致的纯变压器（无需Mobilenet块）作为设计范式。最后，我们执行以延迟驱动的缩小，以获取一系列称为EfficityFormer的最终模型。广泛的实验表明，在移动设备上的性能和速度方面，有效形式的优势。我们最快的型号，有效的Formformer-L1，在Imagenet-1K上获得79.2％的TOP-1精度，仅在iPhone 12上仅1.6毫秒的推理潜伏期（与COREML一起编译），其速度与MobilenetV2X1.4（1.6 ms，1.6 ms，74.7％，74.7％TOP-1）的速度一样快，我们最大的模型，高效Formicformer-l7，仅获得83. 33. 33. 33. 33. 33. 33. 33. 33. 33. 33. 3.3.0.0。我们的工作证明，正确设计的变压器可以在移动设备上达到极低的延迟，同时保持高性能。

Imagenet-1k的分类

型号

模型	TOP-1（300/450）	#params	Mac	潜伏期	ckpt	onnx	Coreml
有效formformerv2-s0	75.7 / 76.2	3.5m	0.40B	0.9ms	S0	S0	S0
有效Formformerv2-S1	79.0 / 79.7	6.1m	0.65b	1.1ms	S1	S1	S1
有效Formformerv2-S2	81.6 / 82.0	126m	1.25b	1.6ms	S2	S2	S2
有效formformerv2-l	83.3 / 83.5	261m	2.56b	2.7ms	l	l	l

模型	TOP-1 ACC。	潜伏期	Pytorch检查点	Coreml	onnx
有效Formformer-L1	79.2（80.2）	1.6ms	L1-300（L1-1000）	L1	L1
有效的形式-L3	82.4	3.0ms	L3	L3	L3
有效Formformer-L7	83.3	7.0ms	L7	L7	L7

潜伏期测量

iPhone 12（iOS 16）在EffcientFormerv2中报告的延迟使用Xcode 14中的基准工具。

对于effcientformerv1，我们使用coreml-strumentance。感谢您进行的精美潜伏期测量！

提示：需要MACOS+XCODE和移动设备（iPhone 12）来复制报告的速度。

成像网

先决条件

建议conda虚拟环境。

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

数据准备

从http://image-net.org/下载并提取Imagenet火车和Val图像。培训和验证数据预计分别位于train文件夹和val文件夹中：

 |-- /path/to/imagenet/
    |-- train
    |-- val

单机器多GPU培训

我们使用Pytorch分布式数据并行（DDP）提供了示例培训脚本dist_train.sh 。

在8-GPU机器上训练EdgitionFormer-L1：

 sh dist_train.sh efficientformer_l1 8

提示：在脚本中指定您的数据路径和实验名称！

多节点训练

在由Slurm管理的集群中，可以通过提交来启动多节点培训

 sh slurm_train.sh efficientformer_l1

提示：根据您的资源在脚本中指定每个节点的GPU/CPU/内存！

测试

我们使用Pytorch分布式数据并行（DDP）提供了一个示例测试脚本dist_test.sh 。例如，要在8-GPU机器上测试ExtricforicyFormer-L1：

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

使用效率格式作为骨干

对象检测和实例分段
语义细分

致谢

分类（Imagenet）代码库部分由Levit和Poomformer构建。

检测和分割管道来自MMCV（MMDETECTION和MMSENEVITATION）。

感谢您的出色实施！

引用

如果我们的代码或模型对您的工作有所帮助，请引用EdgityFormer（Neurips 2022）和EfficityFormisterv2（ICCV 2023）：

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}

展开

附加信息

版本 1.0.0
类型 Python
更新时间 2025-07-12
大小 654.27KB
来自于 Github

EfficientFormer

有效Formformerv2
_{重新考虑Mobilenet尺寸和速度的视觉变压器}

Changelog和Todos

有效形式
_{Mobilenet速度的视觉变压器}

Imagenet-1k的分类

型号

潜伏期测量

成像网

先决条件

数据准备

单机器多GPU培训

多节点训练

测试

使用效率格式作为骨干

致谢

引用

ToDo Co

Python Portfolio

Redash开源的数据图表工具 v24.10.0

datamule python

smartchart数据可视化平台 v6.9

Locust负载测试工具 v2.32.0

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

Redash开源的数据图表工具 v24.10.0

Google Dorks

shepherd

mongo express

EfficientFormer

有效Formformerv2重新考虑Mobilenet尺寸和速度的视觉变压器

Changelog和Todos

有效形式Mobilenet速度的视觉变压器

Imagenet-1k的分类

型号

潜伏期测量

成像网

先决条件

数据准备

单机器多GPU培训

多节点训练

测试

使用效率格式作为骨干

致谢

引用

有效Formformerv2
_{重新考虑Mobilenet尺寸和速度的视觉变压器}

有效形式
_{Mobilenet速度的视觉变压器}