EfficientFormer下載 - EfficientFormer圖源代碼下載

EfficientFormer

Python

1.0.0

下載

有效Formformerv2
_{重新考慮Mobilenet尺寸和速度的視覺變壓器}

arxiv | PDF

模型在Imagenet-1K上進行了培訓，並在Coremltools上部署在iPhone 12上，以獲得延遲。

重新考慮Mobilenet尺寸和速度的視覺變壓器
Yanyu Li ^1,2 ，Ju Hu ¹ ，Yang Wen ¹ ，Georgios Evangelidis ¹ ，Kamyar Salahi ³ ，
Yanzhi Wang ² ，Sergey Tulyakov ¹ ，Jian Ren ¹
¹ Snap Inc.， ²伯克利分校東北大學^2號

抽象的

隨著視覺變壓器（VIT）在計算機視覺任務中的成功，最近的藝術試圖優化VIT的性能和復雜性，以便在移動設備上有效部署。提出了多種方法來加速注意力機制，提高效率低下的設計或結合移動友好的輕量級卷積以形成混合體系結構。但是，VIT及其變體仍然具有更高的延遲或比輕量級CNN的參數更高，甚至在過去的Mobilenet中是正確的。實際上，延遲和尺寸對於在資源構成硬件上有效部署都至關重要。在這項工作中，我們研究了一個中心問題，變壓器模型可以像Mobilenet一樣快地運行並保持相似的尺寸嗎？我們重新審視VIT的設計選擇，並提出一個具有低潛伏期和高參數效率的改進的超級網。我們進一步介紹了一種細粒的關節搜索策略，該策略可以通過同時優化參數和參數數量來找到有效的架構。提出的模型有效ForsicFormerv2在ImabiLenetV2和Mobilenetv2x1.4上，在具有相似延遲和參數的Imagenet-1K上，TOP-1精確度高4％。我們證明，正確設計和優化的視覺變壓器可以使用Mobilenet級的尺寸和速度來實現高性能。

Changelog和Todos

添加ExtificFormerv2型號，包括efficientformerv2_s0 ， efficientformerv2_s1 ， efficientformerv2_s2和efficientformerv2_l 。
釋放了Imagenet-1K上有效Formformerv2的驗證檢查點。
在下游任務（檢測，細分）中更新EdgitificFormerv2。
在下游任務中釋放檢查點。
添加用於分析和部署的額外工具（我們使用Coreml == 5.2和TORCH == 1.11），示例用法：

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

有效形式
_{Mobilenet速度的視覺變壓器}

arxiv | PDF

模型經過Imagenet-1K的培訓，並通過iPhone 12和Coremltools測量以獲得延遲。

有效形式：Mobilenet速度的視覺變壓器
Yanyu Li ^1,2 ，Genge Yuan ^1,2 ，Yang Wen ¹ ，Eric Hu ¹ ，Georgios Evangelidis ¹ ，
Sergey Tulyakov ¹ ，Yanzhi Wang ² ，Jian Ren ¹
¹西北大學^2個Snap Inc.

抽象的

視覺變壓器（VIT）顯示了計算機視覺任務的快速進步，在各種基准上取得了令人鼓舞的結果。但是，由於參數和模型設計數量的數量大量，例如，注意機制，基於VIT的模型通常比輕型捲積網絡慢。因此，為實時應用程序部署VIT特別具有挑戰性，尤其是在資源受限的硬件（例如移動設備）上。最近的努力試圖通過網絡體系結構搜索或與Mobilenet塊的混合設計來降低VIT的計算複雜性，但推理速度仍然不令人滿意。這導致了一個重要的問題：變形金剛在獲得高性能的同時可以像Mobilenet一樣快嗎？為了回答這一點，我們首先重新訪問基於VIT的模型中使用的網絡體系結構和運營商，並確定效率低下的設計。然後，我們引入了一個尺寸一致的純變壓器（無需Mobilenet塊）作為設計範式。最後，我們執行以延遲驅動的縮小，以獲取一系列稱為EfficityFormer的最終模型。廣泛的實驗表明，在移動設備上的性能和速度方面，有效形式的優勢。我們最快的型號，有效的Formformer-L1，在Imagenet-1K上獲得79.2％的TOP-1精度，僅在iPhone 12上僅1.6毫秒的推理潛伏期（與COREML一起編譯），其速度與MobilenetV2X1.4（1.6 ms，1.6 ms，74.7％，74.7％TOP-1）的速度一樣快，我們最大的模型，高效Formicformer-l7，僅獲得83. 33. 33. 33. 33. 33. 33. 33. 33. 33. 33. 3.3.0.0。我們的工作證明，正確設計的變壓器可以在移動設備上達到極低的延遲，同時保持高性能。

Imagenet-1k的分類

型號

模型	TOP-1（300/450）	#params	Mac	潛伏期	ckpt	onnx	Coreml
有效formformerv2-s0	75.7 / 76.2	3.5m	0.40B	0.9ms	S0	S0	S0
有效Formformerv2-S1	79.0 / 79.7	6.1m	0.65b	1.1ms	S1	S1	S1
有效Formformerv2-S2	81.6 / 82.0	126m	1.25b	1.6ms	S2	S2	S2
有效formformerv2-l	83.3 / 83.5	261m	2.56b	2.7ms	l	l	l

模型	TOP-1 ACC。	潛伏期	Pytorch檢查點	Coreml	onnx
有效Formformer-L1	79.2（80.2）	1.6ms	L1-300（L1-1000）	L1	L1
有效的形式-L3	82.4	3.0ms	L3	L3	L3
有效Formformer-L7	83.3	7.0ms	L7	L7	L7

潛伏期測量

iPhone 12（iOS 16）在EffcientFormerv2中報告的延遲使用Xcode 14中的基準工具。

對於effcientformerv1，我們使用coreml-strumentance。感謝您進行的精美潛伏期測量！

提示：需要MACOS+XCODE和移動設備（iPhone 12）來複製報告的速度。

成像網

先決條件

建議conda虛擬環境。

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

數據準備

從http://image-net.org/下載並提取Imagenet火車和Val圖像。培訓和驗證數據預計分別位於train文件夾和val文件夾中：

 |-- /path/to/imagenet/
    |-- train
    |-- val

單機器多GPU培訓

我們使用Pytorch分佈式數據並行（DDP）提供了示例培訓腳本dist_train.sh 。

在8-GPU機器上訓練EdgitionFormer-L1：

 sh dist_train.sh efficientformer_l1 8

提示：在腳本中指定您的數據路徑和實驗名稱！

多節點訓練

在由Slurm管理的集群中，可以通過提交來啟動多節點培訓

 sh slurm_train.sh efficientformer_l1

提示：根據您的資源在腳本中指定每個節點的GPU/CPU/內存！

測試

我們使用Pytorch分佈式數據並行（DDP）提供了一個示例測試腳本dist_test.sh 。例如，要在8-GPU機器上測試ExtricforicyFormer-L1：

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

使用效率格式作為骨幹

對象檢測和實例分段
語義細分

致謝

分類（Imagenet）代碼庫部分由Levit和Poomformer構建。

檢測和分割管道來自MMCV（MMDETECTION和MMSENEVITATION）。

感謝您的出色實施！

引用

如果我們的代碼或模型對您的工作有所幫助，請引用EdgityFormer（Neurips 2022）和EfficityFormisterv2（ICCV 2023）：

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}

展開

附加信息

版本 1.0.0
類型 Python
更新時間 2025-07-12
大小 654.27KB
來自於 Github

相關應用

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部

EfficientFormer

有效Formformerv2
_{重新考慮Mobilenet尺寸和速度的視覺變壓器}

Changelog和Todos

有效形式
_{Mobilenet速度的視覺變壓器}

Imagenet-1k的分類

型號

潛伏期測量

成像網

先決條件

數據準備

單機器多GPU培訓

多節點訓練

測試

使用效率格式作為骨幹

致謝

引用

ToDo Co

Python Portfolio

Redash開源的資料圖表工具v24.10.0

datamule python

smartchart資料視覺化平台v6.9

Locust負載測試工具v2.32.0

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

datamule python

Google Dorks

shepherd

mongo express

EfficientFormer

有效Formformerv2重新考慮Mobilenet尺寸和速度的視覺變壓器

Changelog和Todos

有效形式Mobilenet速度的視覺變壓器

Imagenet-1k的分類

型號

潛伏期測量

成像網

先決條件

數據準備

單機器多GPU培訓

多節點訓練

測試

使用效率格式作為骨幹

致謝

引用

有效Formformerv2
_{重新考慮Mobilenet尺寸和速度的視覺變壓器}

有效形式
_{Mobilenet速度的視覺變壓器}