Download EfficientFormer - download do código -fonte EfficientFormer

EfficientFormer

Pitão

1.0.0

Baixar

EFABIFITYFORMERV2
_{Repensando os transformadores de visão para o tamanho e velocidade do mobilenet}

arxiv | Pdf

Os modelos são treinados no ImageNet-1K e implantados no iPhone 12 com o CoremlTools para obter latência.

Repensando os transformadores de visão para o tamanho e velocidade do mobilenet
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios evangelidis ¹ , Kamyar Salahi ³ ,
Yanzhi Wang ² , Sergey Tulyakov ¹ , Jian Ren ¹
¹ Snap Inc., ² Northeastern University, ³ UC Berkeley

Resumo

Com o sucesso dos transformadores da visão (VITs) nas tarefas de visão computacional, as artes recentes tentam otimizar o desempenho e a complexidade dos VITs para permitir a implantação eficiente em dispositivos móveis. Múltiplas abordagens são propostas para acelerar o mecanismo de atenção, melhorar projetos ineficientes ou incorporar convoluções leves amigáveis para dispositivos móveis para formar arquiteturas híbridas. No entanto, o VIT e suas variantes ainda têm maior latência ou consideravelmente mais parâmetros do que os CNNs leves, mesmo verdadeiros para o mobilenet de anos de idade. Na prática, a latência e o tamanho são cruciais para implantação eficiente no hardware de restrição de recursos. Neste trabalho, investigamos uma pergunta central, os modelos de transformadores podem funcionar tão rápido quanto o MobileNet e manter um tamanho semelhante? Revisitamos as opções de design dos VITs e propomos uma supernet aprimorada com baixa latência e alta eficiência de parâmetros. Introduzimos ainda uma estratégia de pesquisa conjunta de granulação fina que pode encontrar arquiteturas eficientes otimizando a latência e o número de parâmetros simultaneamente. Os modelos propostos, eficientesformerv2, atingem cerca de 4% maior de precisão Top-1 que o mobileNetv2 e o mobileNetv2x1.4 no ImageNet-1K com latência e parâmetros semelhantes. Demonstramos que os transformadores de visão adequadamente projetados e otimizados podem obter alto desempenho com o tamanho e a velocidade do nível do mobilenet.

Changelog e Todos

Adicione a família Modelo EFIFIFITFITFORMERV2, incluindo efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 e efficientformerv2_l .
Os postos de verificação pré-ridicularizados do eficienteFormerv2 no ImageNet-1K são lançados.
Atualize eficáciaForMerv2 em tarefas a jusante (detecção, segmentação).
Libere pontos de verificação em tarefas a jusante.
Adicione ferramentas extras para perfil e implantação (usamos coreml == 5.2 e tocha == 1.11), exemplo de uso:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

EficienteFormer
_{Transformadores de visão na velocidade do mobilenet}

arxiv | Pdf

Os modelos são treinados no ImageNet-1K e medidos pelo iPhone 12 com o CoremlTools para obter latência.

EFIFICIFITYFORMER: Transformadores de visão no MobileNet Speed
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios evangelidis ¹ ,
Sergey Tulyakov ¹ , Yanzhi Wang ² , Jian Ren ¹
¹ Snap Inc., ² Northeastern University

Resumo

Os transformadores da visão (VIT) mostraram um rápido progresso nas tarefas de visão computacional, alcançando resultados promissores em vários parâmetros de referência. No entanto, devido ao grande número de parâmetros e design de modelos, por exemplo, mecanismo de atenção, os modelos baseados em VIT são geralmente mais lentos que as redes convolucionais leves. Portanto, a implantação do VIT para aplicativos em tempo real é particularmente desafiadora, especialmente em hardware com restrição de recursos, como dispositivos móveis. Esforços recentes tentam reduzir a complexidade da computação do VIT através da pesquisa de arquitetura de rede ou do design híbrido com o MobileNet Block, mas a velocidade de inferência ainda é insatisfatória. Isso leva a uma pergunta importante: os transformadores podem ser tão rápidos quanto o MobileNet e obtém alto desempenho? Para responder a isso, primeiro revisitamos a arquitetura de rede e os operadores usados em modelos baseados em VIT e identificamos projetos ineficientes. Em seguida, introduzimos um transformador puro consistente em dimensão (sem blocos de mobilenet) como um paradigma de design. Finalmente, realizamos um emagrecimento orientado a latência para obter uma série de modelos finais apelidados de eficientesformadores. Experiências extensas mostram a superioridade do eficiente de desempenho e velocidade em dispositivos móveis. Nosso modelo mais rápido, eficienteFormer-L1, atinge 79,2% de precisão Top-1 no ImageNet-1K com apenas 1,6 ms de latência de inferência no iPhone 12 (compilado com coreml), que é tão rápido quanto o MOBILENENENETV2.4 (1,6 ms, 74,7% superior-1) e nosso maior modelo, eficiente-l73, obtém 8.6 ms, 74,7% superior-1) e maior modelo, eficiente-l7, obtém 8.6 ms. Nosso trabalho prova que os transformadores projetados adequadamente podem atingir uma latência extremamente baixa em dispositivos móveis, mantendo o alto desempenho.

Classificação no ImageNet-1K

Modelos

Modelo	Top-1 (300/450)	#params	Macs	Latência	ckpt	ONNX	Coreml
EFABIFITYFORMERV2-S0	75.7 / 76.2	3,5m	0,40b	0,9ms	S0	S0	S0
EFABIFITYFORMERV2-S1	79.0 / 79.7	6.1m	0,65b	1,1ms	S1	S1	S1
EFABIFITYFORMERV2-S2	81.6 / 82.0	12,6m	1.25b	1.6ms	S2	S2	S2
EFABIFITYFORMIVERV2-L	83.3 / 83.5	26.1m	2.56b	2.7ms	L	L	L

Modelo	Top-1 acc.	Latência	Ponto de verificação Pytorch	Coreml	ONNX
EficienteFormer-L1	79.2 (80,2)	1.6ms	L1-300 (L1-1000)	L1	L1
EficienteFormer-L3	82.4	3,0ms	L3	L3	L3
EficienteFormer-L7	83.3	7.0ms	L7	L7	L7

Medição de latência

A latência relatada no effcientFormerv2 para iPhone 12 (iOS 16) usa a ferramenta de referência do Xcode 14.

Para effcientFormerv1, usamos o desempenho coreml. Obrigado pela medição de latência de implementação agradável!

Dicas : MacOS+Xcode e um dispositivo móvel (iPhone 12) são necessários para reproduzir a velocidade relatada.

Imagenet

Pré -requisitos

O ambiente virtual conda é recomendado.

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

Preparação de dados

Faça o download e extraia o ImageNet Train e o Val Images de http://image-net.org/. Espera -se que os dados de treinamento e validação estejam na pasta train e val respectivamente::

 |-- /path/to/imagenet/
    |-- train
    |-- val

Treinamento multi-GPU de máquina única

Fornecemos um exemplo de script de treinamento dist_train.sh usando dados distribuídos de pytorch paralelo (DDP).

Para treinar eficientesformer-l1 em uma máquina de 8-GPU:

 sh dist_train.sh efficientformer_l1 8

Dicas: especifique o caminho dos dados e o nome da experiência no script!

Treinamento em vários nó

Em um cluster gerenciado pela Slurm, o treinamento em vários nós pode ser lançado por meio de submeter, por exemplo,

 sh slurm_train.sh efficientformer_l1

Dicas: especifique GPUs/CPUs/memória por nó no script com base no seu recurso!

Teste

Fornecemos um exemplo de script de teste dist_test.sh usando dados distribuídos de pytorch paralelo (DDP). Por exemplo, para testar eficientesformer-l1 em uma máquina de 8-GPU:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

Usando o eficienteFormer como backbone

Detecção de objetos e segmentação de instância
Segmentação semântica

Reconhecimento

A base de código de classificação (ImageNet) é parcialmente construída com o Levit e o Poolformer.

O pipeline de detecção e segmentação é do MMCV (mmDetection e Mmsegmentation).

Obrigado pelas ótimas implementações!

Citação

Se nosso código ou modelos ajudarem o seu trabalho, cite eficiente eficiente (Neurips 2022) e eficáciaFormerV2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}