arxiv | PDF

モデルはImagENET-1Kでトレーニングされ、iPhone 12にdeploydeplay coremltoolsを展開してレイテンシを得ることができます。
Mobilenetサイズと速度のためのビジョントランスを再考します
Yanyu Li 1,2 、Ju Hu 1 、Yang Wen 1 、Georgios Evangelidis 1 、Kamyar Salahi 3 、
ヤンツィ王2 、セルゲイ・トゥリャコフ1 、jian ren 1
1 Snap Inc.、 2 Northeastern University、 3 uc Berkeley
efficientformerv2_s0 、 efficientformerv2_s1 、 efficientformerv2_s2 、 efficientformerv2_lを含む効率的なFormerV2モデルファミリを追加します。 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | PDF

モデルはImagenet-1Kでトレーニングされ、iPhone 12でCoremltoolsを使用して測定してレイテンシを取得します。
EfficientFormer:MobileNet Speedのビジョン変圧器
Yanyu Li 1,2 、Genge Yuan 1,2 、Yang Wen 1 、Eric Hu 1 、Georgios Evangelidis 1 、
Sergey Tulyakov 1 、Yanzhi Wang 2 、Jian Ren 1
1 Snap Inc.、 2 Northeastern University
| モデル | Top-1(300/450) | #params | マック | 遅延 | ckpt | onnx | coreml |
|---|---|---|---|---|---|---|---|
| EfficientFormerv2-S0 | 75.7 / 76.2 | 3.5m | 0.40b | 0.9ms | S0 | S0 | S0 |
| EfficiveFormerv2-S1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| EfficientFormerv2-S2 | 81.6 / 82.0 | 12.6m | 1.25b | 1.6ms | S2 | S2 | S2 |
| EfficientFormerv2-L | 83.3 / 83.5 | 26.1m | 2.56b | 2.7ms | l | l | l |
| モデル | Top-1 ACC。 | 遅延 | Pytorchチェックポイント | coreml | onnx |
|---|---|---|---|---|---|
| EfficientFormer-L1 | 79.2(80.2) | 1.6ms | L1-300(L1-1000) | L1 | L1 |
| EfficientFormer-L3 | 82.4 | 3.0ms | L3 | L3 | L3 |
| EfficientFormer-L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
iPhone 12(iOS 16)のEffcientFormerv2で報告されているレイテンシは、Xcode 14のベンチマークツールを使用しています。
EffcientFormerv1の場合、coreml-performanceを使用します。実装されたレイテンシ測定をありがとう!
ヒント:報告された速度を再現するには、MacOS+Xcodeとモバイルデバイス(iPhone 12)が必要です。
conda Virtual環境をお勧めします。
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
http://image-net.org/からImagenet TrainとValの画像をダウンロードして抽出します。トレーニングと検証データは、それぞれtrainフォルダーとvalフォルダーにあると予想されます。
|-- /path/to/imagenet/
|-- train
|-- val
Pytorch分散データ並列(DDP)を使用して、トレーニングスクリプトdist_train.shの例を提供します。
8-GPUマシンで効率的なFormer-L1をトレーニングするには:
sh dist_train.sh efficientformer_l1 8
ヒント:スクリプトでデータパスと実験名を指定してください!
SluRMが管理したクラスターでは、たとえば、Multi-NodeトレーニングをSubmititを通じて起動できます。
sh slurm_train.sh efficientformer_l1
ヒント:リソースに基づいて、スクリプトでノードごとにGPU/CPU/メモリを指定してください!
Pytorch分散データ並列(DDP)を使用して、テストスクリプトdist_test.shの例を提供します。たとえば、8 gpuマシンで効率的なFormer-L1をテストするには:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
オブジェクトの検出とインスタンスセグメンテーション
セマンティックセグメンテーション
分類(ImagENET)コードベースは、レビットとプールフォーマーで部分的に構築されています。
検出およびセグメンテーションパイプラインはMMCV(MMDETECTIONおよびMMSEGMETATION)からのものです。
素晴らしい実装をありがとう!
私たちのコードまたはモデルがあなたの仕事に役立つ場合は、EfficientFormer(Neurips 2022)およびEfficientFormerV2(ICCV 2023)を引用してください。
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}