Descarga EfficientFormer - Descargar el código fuente EfficientFormer

EfficientFormer

Pitón

1.0.0

Descargar

Eficienteformerv2
_{Repensar los transformadores de la visión para el tamaño y la velocidad de MobileNet}

arxiv | Pdf

Los modelos están entrenados en ImageNet-1K y se despliegan en el iPhone 12 con CoremlTools para obtener latencia.

Repensar los transformadores de la visión para el tamaño y la velocidad de MobileNet
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios Evangelidis ¹ , Kamyar Salahi ³ ,
Yanzhi Wang ² , Sergey Tulyakov ¹ , Jian Ren ¹
¹ Snap Inc., ² Northeastern University, ³ UC Berkeley

Abstracto

Con el éxito de Vision Transformers (VIT) en las tareas de visión por computadora, las artes recientes intentan optimizar el rendimiento y la complejidad de los VIT para permitir una implementación eficiente en dispositivos móviles. Se proponen múltiples enfoques para acelerar el mecanismo de atención, mejorar los diseños ineficientes o incorporar convoluciones livianas amigables para móviles para formar arquitecturas híbridas. Sin embargo, VIT y sus variantes aún tienen una latencia más alta o considerablemente más parámetros que los CNN livianos, incluso cierto para el Mobilenet de los años. En la práctica, la latencia y el tamaño son cruciales para la implementación eficiente en el hardware de restricción de recursos. En este trabajo, investigamos una pregunta central, ¿pueden los modelos de transformadores funcionar tan rápido como Mobilenet y mantener un tamaño similar? Revisamos las opciones de diseño de VIT y proponemos una superneta mejorada con baja latencia y alta eficiencia de parámetros. Además, introducimos una estrategia de búsqueda conjunta de grano fino que puede encontrar arquitecturas eficientes al optimizar la latencia y el número de parámetros simultáneamente. Los modelos propuestos, EficeFormerv2, alcanzan aproximadamente un 4% de precisión Top-1 más alta que MobileNetV2 y MobileNetV2x1.4 en ImageNet-1k con latencia y parámetros similares. Demostramos que los transformadores de visión adecuadamente diseñados y optimizados pueden lograr un alto rendimiento con el tamaño y la velocidad a nivel de MobileNet.

Changelog y Todos

Agregue la familia del modelo eficienteFormerv2, que incluye efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 y efficientformerv2_l .
Se liberan puntos de control previos al detenido de eficienteFormerv2 en ImageNet-1k.
Actualizar eficienteFormerv2 en tareas aguas abajo (detección, segmentación).
Liberar los puntos de control en tareas aguas abajo.
Agregue herramientas adicionales para el perfil e implementación (usamos coreML == 5.2 y antorcha == 1.11), uso de ejemplo:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

Formador eficiente
_{Transformadores de visión a la velocidad de MobileNet}

arxiv | Pdf

Los modelos están entrenados en ImageNet-1K y se miden por iPhone 12 con CoremlTools para obtener latencia.

Formador eficiente: transformadores de visión a la velocidad de MobileNet
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios Evangelidis ¹ ,
Sergey Tulyakov ¹ , Yanzhi Wang ² , Jian Ren ¹
¹ Snap Inc., ² Universidad del Nordeste

Abstracto

Vision Transformers (VIT) ha mostrado un rápido progreso en las tareas de visión por computadora, logrando resultados prometedores en varios puntos de referencia. Sin embargo, debido al número masivo de parámetros y diseño del modelo, por ejemplo, el mecanismo de atención, los modelos basados en VIT son generalmente más lentos que las redes convolucionales livianas. Por lo tanto, la implementación de VIT para aplicaciones en tiempo real es particularmente desafiante, especialmente en hardware limitado por recursos, como dispositivos móviles. Los esfuerzos recientes intentan reducir la complejidad de cálculo de VIT a través de la búsqueda de arquitectura de red o el diseño híbrido con el bloque MobileNet, sin embargo, la velocidad de inferencia aún no es satisfactoria. Esto lleva a una pregunta importante: ¿pueden los transformadores funcionar tan rápido como Mobilenet mientras obtienen un alto rendimiento? Para responder esto, primero revisamos la arquitectura de red y los operadores utilizados en modelos a base de VIT e identifican diseños ineficientes. Luego presentamos un transformador puro consistente en dimensiones (sin bloques de MobileNet) como un paradigma de diseño. Finalmente, realizamos un adelgazamiento basado en la latencia para obtener una serie de modelos finales denominados formador eficiente. Extensos experimentos muestran la superioridad del formador eficiente en rendimiento y velocidad en dispositivos móviles. Nuestro modelo más rápido, eficiente Former-L1, logra 79.2% Top-1 precisión en ImageNet-1K con solo 1.6 ms de latencia de inferencia en iPhone 12 (compilado con coreML), que se ejecuta tan rápido como MobileNetV2X1.4 (1.6 ms, 74.7% Top-1), y nuestro modelo más grande, eficiente-L7, obtiene 83.3% de incorporación con solo 7.0 msms. Nuestro trabajo demuestra que los transformadores diseñados adecuadamente pueden alcanzar una latencia extremadamente baja en dispositivos móviles mientras mantienen un alto rendimiento.

Clasificación en ImageNet-1k

Modelos

Modelo	Top-1 (300/450)	#params	Macs	Estado latente	CKPT	ONNX	Core
Eficienteformerv2-s0	75.7 / 76.2	3.5m	0.40b	0.9 ms	S0	S0	S0
Eficienteformerv2-s1	79.0 / 79.7	6.1m	0.65b	1.1ms	S1	S1	S1
Eficienteformerv2-s2	81.6 / 82.0	12.6m	1.25b	1.6ms	S2	S2	S2
Eficienteformerv2-l	83.3 / 83.5	26.1m	2.56b	2.7 ms	L	L	L

Modelo	TOP-1 ACC.	Estado latente	Punto de control de pytorch	Core	ONNX
Eficiente formador-l1	79.2 (80.2)	1.6ms	L1-300 (L1-1000)	L1	L1
Eficiente formador-l3	82.4	3.0 ms	L3	L3	L3
Eficiente formador-l7	83.3	7.0 ms	L7	L7	L7

Medición de latencia

La latencia reportada en EffCientFormerv2 para iPhone 12 (iOS 16) utiliza la herramienta de referencia de Xcode 14.

Para EffcientFormerv1, utilizamos el rendimiento coreML. ¡Gracias por la buena medición de latencia implementada!

Consejos : se necesitan MacOS+Xcode y un dispositivo móvil (iPhone 12) para reproducir la velocidad informada.

Imagenet

Requisitos previos

Se recomienda el entorno virtual conda .

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

Preparación de datos

Descargue y extraiga imágenes de Train y Val de Imagenet de http://image-net.org/. Se espera que los datos de entrenamiento y validación estén en la carpeta train y la carpeta val , respectivamente:

 |-- /path/to/imagenet/
    |-- train
    |-- val

Entrenamiento multi-GPU de una sola máquina

Proporcionamos un script de entrenamiento de ejemplo dist_train.sh utilizando datos distribuidos de Pytorch paralelo (DDP).

Para entrenar eficiente formador-L1 en una máquina de 8 GPU:

 sh dist_train.sh efficientformer_l1 8

Consejos: ¡Especifique su ruta de datos y el nombre del experimento en el script!

Capacitación en múltiples nodos

En un clúster administrado por shurm, se puede lanzar una capacitación en múltiples nodos a través de Submitit, por ejemplo,

 sh slurm_train.sh efficientformer_l1

Consejos: ¡Especifique GPU/CPU/Memoria por nodo en el script basado en su recurso!

Pruebas

Proporcionamos un ejemplo de script de prueba dist_test.sh utilizando datos distribuidos de Pytorch paralelo (DDP). Por ejemplo, para probar eficiente formador-L1 en una máquina de 8 GPU:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

Usando un formador eficiente como columna vertebral

Detección de objetos y segmentación de instancias
Segmentación semántica

Reconocimiento

La base de código de clasificación (ImageNet) está parcialmente construida con Levit y Poolformer.

La tubería de detección y segmentación es de MMCV (MMDetection y MMSegmation).

¡Gracias por las excelentes implementaciones!

Citación

Si nuestro código o modelos ayudan a su trabajo, cite eficiente formador (neurips 2022) y eficienteFormerv2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}