arxiv | PDF

모델은 Imagenet-1K에 대한 교육을 받고 iPhone 12에 CoremlTools와 함께 배치되어 대기 시간을 얻습니다.
Mobilenet 크기와 속도를위한 비전 변압기를 다시 생각합니다
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Yanzhi Wang 2 , Sergey Tulyakov 1 , Jian Ren 1
1 Snap Inc., 2 Northeastern University, 3 UC Berkeley
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 및 efficientformerv2_l 포함한 효율성 포맷 버드 모델 패밀리를 추가하십시오. python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv | PDF

모델은 Imagenet-1K에 대한 교육을 받고 iPhone 12에서 CoremlTools로 측정하여 대기 시간을 얻습니다.
효율성 : Mobilenet 속도의 비전 변압기
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios Evangelidis 1 ,
Sergey Tulyakov 1 , Yanzhi Wang 2 , Jian Ren 1
1 Snap Inc., 2 Northeastern University
| 모델 | 상위 1 (300/450) | #Params | Mac | 숨어 있음 | CKPT | onx | Coreml |
|---|---|---|---|---|---|---|---|
| 효율적인 포름 2-S0 | 75.7 / 76.2 | 3.5m | 0.40b | 0.9ms | S0 | S0 | S0 |
| 효율적인 포름 2-S1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| 효율적인 포름 2-S2 | 81.6 / 82.0 | 12.6m | 1.25B | 1.6ms | S2 | S2 | S2 |
| 효율적인 포름. | 83.3 / 83.5 | 26.1m | 2.56b | 2.7ms | 엘 | 엘 | 엘 |
| 모델 | 상위 1 ACC. | 숨어 있음 | Pytorch 체크 포인트 | Coreml | onx |
|---|---|---|---|---|---|
| 효율적인 성능 L1 | 79.2 (80.2) | 1.6ms | L1-300 (L1-1000) | L1 | L1 |
| 효율적인 성능 L3 | 82.4 | 3.0ms | L3 | L3 | L3 |
| 효율적인 성능 L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
iPhone 12 (iOS 16) 용 EffCientFormerv2에보고 된 대기 시간은 Xcode 14의 벤치 마크 도구를 사용합니다.
EffcientFormerv1의 경우 Coreml-Performance를 사용합니다. 잘 구현 된 대기 시간 측정에 감사드립니다!
팁 :보고 된 속도를 재현하려면 MacOS+Xcode와 모바일 장치 (iPhone 12)가 필요합니다.
conda 가상 환경이 권장됩니다.
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
http://image-net.org/에서 Imagenet Train 및 Val 이미지를 다운로드하여 추출하십시오. 교육 및 검증 데이터는 각각 train 폴더와 val 폴더에있을 것으로 예상됩니다.
|-- /path/to/imagenet/
|-- train
|-- val
Pytorch 분산 데이터 병렬 (DDP)을 사용하여 훈련 스크립트 dist_train.sh 예제를 제공합니다.
8-GPU 기계에서 효율적인 성능 L1을 훈련하려면 :
sh dist_train.sh efficientformer_l1 8
팁 : 스크립트에서 데이터 경로와 실험 이름을 지정하십시오!
Slurm 관리 클러스터에서는 Dulti-Node Training을 예를 들어 제출을 통해 시작할 수 있습니다.
sh slurm_train.sh efficientformer_l1
팁 : 리소스를 기반으로 스크립트에서 노드 당 GPUS/CPUS/메모리를 지정하십시오!
Pytorch 분산 데이터 병렬 (DDP)을 사용하여 예제 테스트 스크립트 dist_test.sh 제공합니다. 예를 들어, 8-GPU 시스템에서 EngicalFormer-L1을 테스트합니다.
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
객체 감지 및 인스턴스 분할
시맨틱 세분화
Classification (ImageNet) 코드베이스는 부분적으로 Levit 및 Poolformer로 구축됩니다.
감지 및 분할 파이프 라인은 MMCV (MMDetection 및 Mmsementation)에서 나온 것입니다.
훌륭한 구현에 감사드립니다!
당사의 코드 또는 모델이 귀하의 작업에 도움이되면 효율성 성능 (Neurips 2022) 및 Engicial Formerv2 (ICCV 2023)를 인용하십시오.
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}