EfficientFormerのダウンロード - EfficientFormerソースコードのダウンロード

EfficientFormer

パイソン

1.0.0

ダウンロード

EfficiveFormerv2
_{Mobilenetサイズと速度のためのビジョントランスを再考します}

arxiv | PDF

モデルはImagENET-1Kでトレーニングされ、iPhone 12にdeploydeplay coremltoolsを展開してレイテンシを得ることができます。

Mobilenetサイズと速度のためのビジョントランスを再考します
Yanyu Li ^1,2 、Ju Hu ¹ 、Yang Wen ¹ 、Georgios Evangelidis ¹ 、Kamyar Salahi ³ 、
ヤンツィ王² 、セルゲイ・トゥリャコフ¹ 、jian ren ¹
¹ Snap Inc.、 ² Northeastern University、 ³ uc Berkeley

抽象的な

コンピュータービジョンタスクでのビジョントランス（VITS）の成功により、最近の芸術は、モバイルデバイスでの効率的な展開を可能にするために、VITのパフォーマンスと複雑さを最適化しようとしています。注意メカニズムを加速したり、非効率的な設計を改善したり、モバイルに優しい軽量畳み込みを組み込んでハイブリッドアーキテクチャを形成するために、複数のアプローチが提案されています。ただし、VITとそのバリエーションは、軽量CNNよりも依然として高いレイテンシまたはかなり多くのパラメーターを持っています。実際には、リソースコンストラリングハードウェアでの効率的な展開には、遅延とサイズの両方が重要です。この作業では、中心的な質問を調査します。変圧器モデルはMobileNetと同じくらい速く実行され、同様のサイズを維持できますか？ VITの設計の選択を再検討し、レイテンシが低く、パラメーターの効率が高い改善されたスーパーネットを提案します。さらに、レイテンシとパラメーターの数を同時に最適化することにより、効率的なアーキテクチャを見つけることができる微粒の共同検索戦略を導入します。提案されているモデルであるEfficientYFormerV2は、同様のレイテンシとパラメーターを備えたImagENET-1KでMobileNETV2およびMobileNETV2X1.4よりも約4％高いTOP-1精度を実現します。適切に設計および最適化された視覚変圧器が、MobileNetレベルのサイズと速度で高性能を達成できることを実証します。

ChangelogとTodos

efficientformerv2_s0 、 efficientformerv2_s1 、 efficientformerv2_s2 、 efficientformerv2_lを含む効率的なFormerV2モデルファミリを追加します。
Imagenet-1K上のEfficiveerFormerV2の前提条件のチェックポイントがリリースされます。
ダウンストリームタスクでEfficiveFormerV2を更新します（検出、セグメンテーション）。
ダウンストリームタスクでチェックポイントをリリースします。
プロファイリングと展開用の追加ツールを追加します（coreml == 5.2およびtorch == 1.11を使用します）、例の例：

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

EfficientFormer
_{MobileNet速度の視覚変圧器}

arxiv | PDF

モデルはImagenet-1Kでトレーニングされ、iPhone 12でCoremltoolsを使用して測定してレイテンシを取得します。

EfficientFormer：MobileNet Speedのビジョン変圧器
Yanyu Li ^1,2 、Genge Yuan ^1,2 、Yang Wen ¹ 、Eric Hu ¹ 、Georgios Evangelidis ¹ 、
Sergey Tulyakov ¹ 、Yanzhi Wang ² 、Jian Ren ¹
¹ Snap Inc.、 ² Northeastern University

抽象的な

Vision Transformers（VIT）は、コンピュータービジョンタスクの急速な進歩を示しており、さまざまなベンチマークで有望な結果を達成しています。ただし、膨大な数のパラメーターとモデル設計により、特に注意メカニズム、VITベースのモデルは一般に、軽量の畳み込みネットワークよりも遅くなります。したがって、リアルタイムアプリケーション向けのVITの展開は、特にモバイルデバイスなどのリソース制約のあるハードウェアで特に困難です。最近の取り組みは、MobileNetブロックを使用したネットワークアーキテクチャ検索またはハイブリッド設計を通じてVITの計算の複雑さを減らしようとしていますが、推論速度は依然として不十分です。これは重要な質問につながります。トランスフォーマーは、高性能を獲得しながらMobileNetと同じくらい速く走ることができますか？これに答えるために、最初にネットワークアーキテクチャを再訪し、vitベースのモデルで使用されたオペレーターを再訪し、非効率的な設計を特定します。次に、デザインのパラダイムとして、次元一貫性のある純粋なトランス（MobileNetブロックなし）を紹介します。最後に、Latency駆動型のスリミングを実行して、EfficiveFormerと呼ばれる一連の最終モデルを取得します。広範な実験では、モバイルデバイスのパフォーマンスと速度における効率的なフォーマーの優位性が示されています。私たちの最速モデルであるEfficiveFormer-L1は、iPhone 12（Coremlでコンパイルされた）でわずか1.6ミリ秒の推論レイテンシでImagenet-1Kで79.2％の精度を達成します。私たちの作業は、適切に設計された変圧器が高性能を維持しながら、モバイルデバイスで非常に低いレイテンシに到達できることを証明しています。

Imagenet-1Kの分類

モデル

モデル	Top-1（300/450）	#params	マック	遅延	ckpt	onnx	coreml
EfficientFormerv2-S0	75.7 / 76.2	3.5m	0.40b	0.9ms	S0	S0	S0
EfficiveFormerv2-S1	79.0 / 79.7	6.1m	0.65b	1.1ms	S1	S1	S1
EfficientFormerv2-S2	81.6 / 82.0	12.6m	1.25b	1.6ms	S2	S2	S2
EfficientFormerv2-L	83.3 / 83.5	26.1m	2.56b	2.7ms	l	l	l

モデル	Top-1 ACC。	遅延	Pytorchチェックポイント	coreml	onnx
EfficientFormer-L1	79.2（80.2）	1.6ms	L1-300（L1-1000）	L1	L1
EfficientFormer-L3	82.4	3.0ms	L3	L3	L3
EfficientFormer-L7	83.3	7.0ms	L7	L7	L7

遅延測定

iPhone 12（iOS 16）のEffcientFormerv2で報告されているレイテンシは、Xcode 14のベンチマークツールを使用しています。

EffcientFormerv1の場合、coreml-performanceを使用します。実装されたレイテンシ測定をありがとう！

ヒント：報告された速度を再現するには、MacOS+Xcodeとモバイルデバイス（iPhone 12）が必要です。

Imagenet

前提条件

conda Virtual環境をお勧めします。

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

データの準備

http://image-net.org/からImagenet TrainとValの画像をダウンロードして抽出します。トレーニングと検証データは、それぞれtrainフォルダーとvalフォルダーにあると予想されます。

 |-- /path/to/imagenet/
    |-- train
    |-- val

シングルマシンマルチGPUトレーニング

Pytorch分散データ並列（DDP）を使用して、トレーニングスクリプトdist_train.shの例を提供します。

8-GPUマシンで効率的なFormer-L1をトレーニングするには：

 sh dist_train.sh efficientformer_l1 8

ヒント：スクリプトでデータパスと実験名を指定してください！

マルチノードトレーニング

SluRMが管理したクラスターでは、たとえば、Multi-NodeトレーニングをSubmititを通じて起動できます。

 sh slurm_train.sh efficientformer_l1

ヒント：リソースに基づいて、スクリプトでノードごとにGPU/CPU/メモリを指定してください！

テスト

Pytorch分散データ並列（DDP）を使用して、テストスクリプトdist_test.shの例を提供します。たとえば、8 gpuマシンで効率的なFormer-L1をテストするには：

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

バックボーンとしてEfficientFormerを使用します

オブジェクトの検出とインスタンスセグメンテーション
セマンティックセグメンテーション

了承

分類（ImagENET）コードベースは、レビットとプールフォーマーで部分的に構築されています。

検出およびセグメンテーションパイプラインはMMCV（MMDETECTIONおよびMMSEGMETATION）からのものです。

素晴らしい実装をありがとう！

引用

私たちのコードまたはモデルがあなたの仕事に役立つ場合は、EfficientFormer（Neurips 2022）およびEfficientFormerV2（ICCV 2023）を引用してください。

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}

拡大する

追加情報

バージョン 1.0.0
タイプパイソン
更新時間 2025-07-12
サイズ 654.27KB
から Github

EfficientFormer

EfficiveFormerv2
_{Mobilenetサイズと速度のためのビジョントランスを再考します}

ChangelogとTodos

EfficientFormer
_{MobileNet速度の視覚変圧器}

Imagenet-1Kの分類

モデル

遅延測定

Imagenet

前提条件

データの準備

シングルマシンマルチGPUトレーニング

マルチノードトレーニング

テスト

バックボーンとしてEfficientFormerを使用します

了承

引用

ToDo Co

Python Portfolio

Redash オープンソースデータチャートツール v24.10.0

datamule python

スマートチャートデータ視覚化プラットフォーム v6.9

Locust 負荷テストツール v2.32.0

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

datamule python

Google Dorks

shepherd

mongo express

EfficientFormer

EfficiveFormerv2 Mobilenetサイズと速度のためのビジョントランスを再考します

ChangelogとTodos

EfficientFormer MobileNet速度の視覚変圧器

Imagenet-1Kの分類

モデル

遅延測定

Imagenet

前提条件

データの準備

シングルマシンマルチGPUトレーニング

マルチノードトレーニング

テスト

バックボーンとしてEfficientFormerを使用します

了承

引用

EfficiveFormerv2
_{Mobilenetサイズと速度のためのビジョントランスを再考します}

EfficientFormer
_{MobileNet速度の視覚変圧器}