arxiv | Pdf

Los modelos están entrenados en ImageNet-1K y se despliegan en el iPhone 12 con CoremlTools para obtener latencia.
Repensar los transformadores de la visión para el tamaño y la velocidad de MobileNet
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Yanzhi Wang 2 , Sergey Tulyakov 1 , Jian Ren 1
1 Snap Inc., 2 Northeastern University, 3 UC Berkeley
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 y efficientformerv2_l . python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | Pdf

Los modelos están entrenados en ImageNet-1K y se miden por iPhone 12 con CoremlTools para obtener latencia.
Formador eficiente: transformadores de visión a la velocidad de MobileNet
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios Evangelidis 1 ,
Sergey Tulyakov 1 , Yanzhi Wang 2 , Jian Ren 1
1 Snap Inc., 2 Universidad del Nordeste
| Modelo | Top-1 (300/450) | #params | Macs | Estado latente | CKPT | ONNX | Core |
|---|---|---|---|---|---|---|---|
| Eficienteformerv2-s0 | 75.7 / 76.2 | 3.5m | 0.40b | 0.9 ms | S0 | S0 | S0 |
| Eficienteformerv2-s1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| Eficienteformerv2-s2 | 81.6 / 82.0 | 12.6m | 1.25b | 1.6ms | S2 | S2 | S2 |
| Eficienteformerv2-l | 83.3 / 83.5 | 26.1m | 2.56b | 2.7 ms | L | L | L |
| Modelo | TOP-1 ACC. | Estado latente | Punto de control de pytorch | Core | ONNX |
|---|---|---|---|---|---|
| Eficiente formador-l1 | 79.2 (80.2) | 1.6ms | L1-300 (L1-1000) | L1 | L1 |
| Eficiente formador-l3 | 82.4 | 3.0 ms | L3 | L3 | L3 |
| Eficiente formador-l7 | 83.3 | 7.0 ms | L7 | L7 | L7 |
La latencia reportada en EffCientFormerv2 para iPhone 12 (iOS 16) utiliza la herramienta de referencia de Xcode 14.
Para EffcientFormerv1, utilizamos el rendimiento coreML. ¡Gracias por la buena medición de latencia implementada!
Consejos : se necesitan MacOS+Xcode y un dispositivo móvil (iPhone 12) para reproducir la velocidad informada.
Se recomienda el entorno virtual conda .
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
Descargue y extraiga imágenes de Train y Val de Imagenet de http://image-net.org/. Se espera que los datos de entrenamiento y validación estén en la carpeta train y la carpeta val , respectivamente:
|-- /path/to/imagenet/
|-- train
|-- val
Proporcionamos un script de entrenamiento de ejemplo dist_train.sh utilizando datos distribuidos de Pytorch paralelo (DDP).
Para entrenar eficiente formador-L1 en una máquina de 8 GPU:
sh dist_train.sh efficientformer_l1 8
Consejos: ¡Especifique su ruta de datos y el nombre del experimento en el script!
En un clúster administrado por shurm, se puede lanzar una capacitación en múltiples nodos a través de Submitit, por ejemplo,
sh slurm_train.sh efficientformer_l1
Consejos: ¡Especifique GPU/CPU/Memoria por nodo en el script basado en su recurso!
Proporcionamos un ejemplo de script de prueba dist_test.sh utilizando datos distribuidos de Pytorch paralelo (DDP). Por ejemplo, para probar eficiente formador-L1 en una máquina de 8 GPU:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
Detección de objetos y segmentación de instancias
Segmentación semántica
La base de código de clasificación (ImageNet) está parcialmente construida con Levit y Poolformer.
La tubería de detección y segmentación es de MMCV (MMDetection y MMSegmation).
¡Gracias por las excelentes implementaciones!
Si nuestro código o modelos ayudan a su trabajo, cite eficiente formador (neurips 2022) y eficienteFormerv2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}