arxiv | PDF

Модели обучаются на ImageNet-1K и развернуты на iPhone 12 с CoremlTools, чтобы получить задержку.
Переосмысление визуальных трансформаторов для размера и скорости Mobilenet
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Яньчхи Ван 2 , Сергей Туляков 1 , Цзянь Рен 1
1 Snap Inc., 2 Северо -Восточный университет, 3 UC Berkeley
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 и efficientformerv2_l . python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | PDF

Модели обучаются на ImageNet-1K и измеряются iPhone 12 с помощью CoremlTools, чтобы получить задержку.
Effectiformer: Vision Transformers у Mobilenet Speed
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios Evangelidis 1 ,
Сергей Туляков 1 , Янжи Ван 2 , Цзянь Рен 1
1 Snap Inc., 2 Северо -Восточный университет
| Модель | TOP-1 (300/450) | #Парамы | Маки | Задержка | CKPT | Onnx | Коремл |
|---|---|---|---|---|---|---|---|
| EfficeFormerv2-S0 | 75,7 / 76,2 | 3,5 м | 0,40b | 0,9 мс | Сорта | Сорта | Сорта |
| EfficeFormerv2-S1 | 79,0 / 79,7 | 6,1 м | 0,65b | 1,1 мс | S1 | S1 | S1 |
| EfficeFormerv2-S2 | 81,6 / 82,0 | 12,6 м | 1,25b | 1,6 мс | С2 | С2 | С2 |
| EfficeFormerv2-L | 83,3 / 83,5 | 26.1m | 2.56b | 2,7 мс | Л | Л | Л |
| Модель | Top-1 Acc. | Задержка | Pytorch Checkpoint | Коремл | Onnx |
|---|---|---|---|---|---|
| Эффективно-формимер-L1 | 79,2 (80,2) | 1,6 мс | L1-300 (L1-1000) | L1 | L1 |
| Эффективный формамер-L3 | 82.4 | 3,0 мс | L3 | L3 | L3 |
| Эффективно-формимер-L7 | 83,3 | 7,0 мс | 19 -й | 19 -й | 19 -й |
Задержка, зарегистрированная в EffcientFormerv2 для iPhone 12 (iOS 16), использует эталонный инструмент от Xcode 14.
Для EffcientFormerv1 мы используем Coreml-производительность. Спасибо за измерение задержки с хорошим внедрением!
Советы : MacOS+XCODE и мобильное устройство (iPhone 12) необходимы для воспроизведения сообщаемой скорости.
Рекомендуется виртуальная среда conda .
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
Загрузите и извлеките ImageNet Train и Val-изображения с http://image-net.org/. Ожидается, что данные обучения и валидации будут в папке train и папки val соответственно:
|-- /path/to/imagenet/
|-- train
|-- val
Мы приводим пример обучающего скрипта dist_train.sh , используя распределенные данные Pytorch (DDP).
Для обучения эффективного формамера-L1 на машине с 8-г-гип:
sh dist_train.sh efficientformer_l1 8
Советы: укажите свой путь данных и имя эксперимента в сценарии!
На кластере, управляемом Slurm, многоузвуковое обучение может быть запущено, например, через отправку, например,
sh slurm_train.sh efficientformer_l1
Советы: Укажите графические процессоры/процессоры/память на узел в скрипте на основе вашего ресурса!
Мы предоставляем пример тестового скрипта dist_test.sh , используя распределенные данные Pytorch (DDP). Например, для тестирования эффективного формамера-L1 на машине с 8-г-гип:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
Обнаружение объекта и сегментация экземпляра
Семантическая сегментация
Кодовая база классификации (ImageNet) частично построена с Levit и Poolformer.
Трубопровод обнаружения и сегментации от MMCV (MMDetection и MMSegmation).
Спасибо за отличные реализации!
Если наш код или модели помогают вашей работе, пожалуйста, цитируйте EffectfiveFormer (Neurips 2022) и Effectiformerv2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}