Загрузка EfficientFormer - EfficientFormer загрузка исходного кода

EfficientFormer

Питон

1.0.0

Скачать

EfficeFormerv2
_{Переосмысление визуальных трансформаторов для размера и скорости Mobilenet}

arxiv | PDF

Модели обучаются на ImageNet-1K и развернуты на iPhone 12 с CoremlTools, чтобы получить задержку.

Переосмысление визуальных трансформаторов для размера и скорости Mobilenet
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios Evangelidis ¹ , Kamyar Salahi ³ ,
Яньчхи Ван ² , Сергей Туляков ¹ , Цзянь Рен ¹
¹ Snap Inc., ² Северо -Восточный университет, ³ UC Berkeley

Абстрактный

С успехом трансформаторов зрения (VIT) в задачах компьютерного зрения, недавние искусства пытаются оптимизировать производительность и сложность VIT, чтобы обеспечить эффективное развертывание на мобильных устройствах. Предлагается несколько подходов для ускорения механизма внимания, улучшения неэффективных конструкций или включения легких мобильных слоев для формирования гибридных архитектур. Тем не менее, Vit и его варианты по-прежнему имеют более высокую задержку или значительно больше параметров, чем легкие CNN, даже верны для летнего Mobilenet. На практике задержка и размер имеют решающее значение для эффективного развертывания оборудования для обеспечения ресурсов. В этой работе мы исследуем центральный вопрос, могут ли трансформаторные модели работать так же быстро, как Mobilenet, и поддерживать аналогичный размер? Мы пересматриваем варианты дизайна VIT и предлагаем улучшенный супернет с низкой задержкой и высокой эффективностью параметров. Мы также вводим мелкозернистую стратегию совместного поиска, которая может найти эффективную архитектуру, одновременно оптимизируя задержку и количество параметров. Предлагаемые модели, EffectformFormerv2, достигают примерно на 4% точность TOP-1, чем MobilEnetV2 и MobilEnetV2x1.4 на ImageNet-1K с аналогичной задержкой и параметрами. Мы демонстрируем, что правильно разработанные и оптимизированные трансформаторы зрения могут достичь высокой производительности с размером и скоростью уровня мобилента.

Чанженол и Тодос

Добавить семейство моделей эффективного формирования2, в том числе efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 и efficientformerv2_l .
Предварительные контрольные точки Effectformerv2 на ImageNet-1K выпускаются.
Обновление EfficeFormerv2 в нижестоящих задачах (обнаружение, сегментация).
Выпустите контрольные точки в нижестоящих задачах.
Добавьте дополнительные инструменты для профилирования и развертывания (мы используем Coreml == 5.2 и Torch == 1.11), пример использования:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

Эффективно
_{Vision Transformers на скорости Mobilenet}

arxiv | PDF

Модели обучаются на ImageNet-1K и измеряются iPhone 12 с помощью CoremlTools, чтобы получить задержку.

Effectiformer: Vision Transformers у Mobilenet Speed
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios Evangelidis ¹ ,
Сергей Туляков ¹ , Янжи Ван ² , Цзянь Рен ¹
¹ Snap Inc., ² Северо -Восточный университет

Абстрактный

Vision Transformers (Vit) показали быстрый прогресс в задачах компьютерного зрения, достигая многообещающих результатов по различным критериям. Однако из-за огромного количества параметров и конструкции моделей, например, механизм внимания, модели на основе видов, как правило, растут медленнее, чем легкие сверточные сети. Следовательно, развертывание VIT для приложений в реальном времени особенно сложно, особенно на оборудовании с ограниченным ресурсом, таким как мобильные устройства. Недавние усилия пытаются уменьшить сложность вычислений Vit с помощью поиска сетевой архитектуры или гибридного дизайна с блоком Mobilenet, однако скорость вывода по -прежнему является неудовлетворительной. Это приводит к важному вопросу: могут ли трансформеры работать так быстро, как Mobilenet, получая высокую производительность? Чтобы ответить на это, мы сначала пересматриваем сетевую архитектуру и операторы, используемые в моделях, основанных на VIT, и идентифицируем неэффективные конструкции. Затем мы представляем, согласованный измерением чистый трансформатор (без блоков Mobilenet) в качестве парадигмы дизайна. Наконец, мы выполняем похудение, управляемое задержкой, чтобы получить серию окончательных моделей, получивших название Effectformer. Обширные эксперименты показывают превосходство эффективности в производительности и скорости на мобильных устройствах. Наша самая быстрая модель, Effectformermer-L1, достигает 79,2% точки TOP-1 на ImageNet-1K с задержкой вывода только 1,6 мс на iPhone 12 (скомпилирован с COREML), который работает так же быстро, как и MobilENETV2X1,4 (1,6 мс, 74,7% TOP-1), и наша наибольшая модель, эффективная-L7, достигает 83,3% с точностью 7%. Наша работа доказывает, что правильно спроектированные трансформаторы могут достичь чрезвычайно низкой задержки на мобильных устройствах, сохраняя при этом высокую производительность.

Классификация на ImageNet-1K

Модели

Модель	TOP-1 (300/450)	#Парамы	Маки	Задержка	CKPT	Onnx	Коремл
EfficeFormerv2-S0	75,7 / 76,2	3,5 м	0,40b	0,9 мс	Сорта	Сорта	Сорта
EfficeFormerv2-S1	79,0 / 79,7	6,1 м	0,65b	1,1 мс	S1	S1	S1
EfficeFormerv2-S2	81,6 / 82,0	12,6 м	1,25b	1,6 мс	С2	С2	С2
EfficeFormerv2-L	83,3 / 83,5	26.1m	2.56b	2,7 мс	Л	Л	Л

Модель	Top-1 Acc.	Задержка	Pytorch Checkpoint	Коремл	Onnx
Эффективно-формимер-L1	79,2 (80,2)	1,6 мс	L1-300 (L1-1000)	L1	L1
Эффективный формамер-L3	82.4	3,0 мс	L3	L3	L3
Эффективно-формимер-L7	83,3	7,0 мс	19 -й	19 -й	19 -й

Измерение задержки

Задержка, зарегистрированная в EffcientFormerv2 для iPhone 12 (iOS 16), использует эталонный инструмент от Xcode 14.

Для EffcientFormerv1 мы используем Coreml-производительность. Спасибо за измерение задержки с хорошим внедрением!

Советы : MacOS+XCODE и мобильное устройство (iPhone 12) необходимы для воспроизведения сообщаемой скорости.

ImageNet

Предварительные условия

Рекомендуется виртуальная среда conda .

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

Подготовка данных

Загрузите и извлеките ImageNet Train и Val-изображения с http://image-net.org/. Ожидается, что данные обучения и валидации будут в папке train и папки val соответственно:

 |-- /path/to/imagenet/
    |-- train
    |-- val

Обучение мульти-GPU с одной машиной

Мы приводим пример обучающего скрипта dist_train.sh , используя распределенные данные Pytorch (DDP).

Для обучения эффективного формамера-L1 на машине с 8-г-гип:

 sh dist_train.sh efficientformer_l1 8

Советы: укажите свой путь данных и имя эксперимента в сценарии!

Многоушковое обучение

На кластере, управляемом Slurm, многоузвуковое обучение может быть запущено, например, через отправку, например,

 sh slurm_train.sh efficientformer_l1

Советы: Укажите графические процессоры/процессоры/память на узел в скрипте на основе вашего ресурса!

Тестирование

Мы предоставляем пример тестового скрипта dist_test.sh , используя распределенные данные Pytorch (DDP). Например, для тестирования эффективного формамера-L1 на машине с 8-г-гип:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

Использование эффективности в качестве основы

Обнаружение объекта и сегментация экземпляра
Семантическая сегментация

Подтверждение

Кодовая база классификации (ImageNet) частично построена с Levit и Poolformer.

Трубопровод обнаружения и сегментации от MMCV (MMDetection и MMSegmation).

Спасибо за отличные реализации!

Цитирование

Если наш код или модели помогают вашей работе, пожалуйста, цитируйте EffectfiveFormer (Neurips 2022) и Effectiformerv2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}