arxiv PDF

โมเดลได้รับการฝึกฝนเกี่ยวกับ Imagenet-1K และนำไปใช้กับ iPhone 12 ด้วย coremltools เพื่อรับแฝง
ทบทวนการมองเห็นหม้อแปลงไฟฟ้าสำหรับขนาดและความเร็ว mobilenet
Yanyu Li 1,2 , Ju Hu 1 , Yang Wen 1 , Georgios Evangelidis 1 , Kamyar Salahi 3 ,
Yanzhi Wang 2 , Sergey Tulyakov 1 , Jian Ren 1
1 Snap Inc. , 2 Northeastern University, 3 UC Berkeley
efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 และ efficientformerv2_l python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml
arxiv PDF

รุ่นได้รับการฝึกฝนเกี่ยวกับ Imagenet-1K และวัดโดย iPhone 12 ด้วย coreMltools เพื่อรับความล่าช้า
EfficientFormer: Vision Transformers ที่ความเร็ว Mobilenet
Yanyu Li 1,2 , Genge Yuan 1,2 , Yang Wen 1 , Eric Hu 1 , Georgios Evangelidis 1 ,
Sergey Tulyakov 1 , Yanzhi Wang 2 , Jian Ren 1
1 Snap Inc. , 2 Northeastern University
| แบบอย่าง | TOP-1 (300/450) | #params | Macs | ความหน่วงแฝง | CKPT | onnx | คนขี้เกียจ |
|---|---|---|---|---|---|---|---|
| EfficientFormerV2-S0 | 75.7 / 76.2 | 3.5m | 0.40b | 0.9ms | S0 | S0 | S0 |
| EfficientFormerV2-S1 | 79.0 / 79.7 | 6.1m | 0.65b | 1.1ms | S1 | S1 | S1 |
| EfficientFormerV2-S2 | 81.6 / 82.0 | 12.6m | 1.25b | 1.6ms | S2 | S2 | S2 |
| EfficientFormerv2-L | 83.3 / 83.5 | 26.1m | 2.56b | 2.7ms | l | l | l |
| แบบอย่าง | Top-1 ACC | ความหน่วงแฝง | จุดตรวจ Pytorch | คนขี้เกียจ | onnx |
|---|---|---|---|---|---|
| Efficientformer-L1 | 79.2 (80.2) | 1.6ms | L1-300 (L1-1000) | L1 | L1 |
| Efficientformer-L3 | 82.4 | 3.0ms | L3 | L3 | L3 |
| Efficientformer-L7 | 83.3 | 7.0ms | L7 | L7 | L7 |
เวลาแฝงที่รายงานใน EffCientFormerv2 สำหรับ iPhone 12 (iOS 16) ใช้เครื่องมือมาตรฐานจาก Xcode 14
สำหรับ EffcientFormerv1 เราใช้ Coreml-Performance ขอบคุณสำหรับการวัดเวลาแฝงที่ดี!
เคล็ดลับ : MacOS+XCode และอุปกรณ์มือถือ (iPhone 12) จำเป็นต้องใช้เพื่อทำซ้ำความเร็วที่รายงาน
แนะนำให้ใช้สภาพแวดล้อมเสมือนจริง conda
conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit
ดาวน์โหลดและแยก Imagenet Train และ Val Images จาก http://image-net.org/ ข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้องคาดว่าจะอยู่ในโฟลเดอร์ train และโฟลเดอร์ val ตามลำดับ:
|-- /path/to/imagenet/
|-- train
|-- val
เราให้ตัวอย่างสคริปต์การฝึกอบรม dist_train.sh โดยใช้ Pytorch Distributed Data Parallel (DDP)
เพื่อฝึกอบรม EfficientFormer-L1 บนเครื่อง 8-GPU:
sh dist_train.sh efficientformer_l1 8
เคล็ดลับ: ระบุเส้นทางข้อมูลและชื่อการทดลองของคุณในสคริปต์!
ในคลัสเตอร์ที่มีการจัดการแบบ slurm การฝึกอบรมแบบหลายโหนดสามารถเปิดใช้งานได้ผ่านทาง Submitit เช่น
sh slurm_train.sh efficientformer_l1
เคล็ดลับ: ระบุ GPU/CPU/หน่วยความจำต่อโหนดในสคริปต์ตามทรัพยากรของคุณ!
เราให้ตัวอย่างสคริปต์ทดสอบ dist_test.sh โดยใช้ Pytorch Distributed Data Parallel (DDP) ตัวอย่างเช่นเพื่อทดสอบประสิทธิภาพ L1 บนเครื่อง 8-GPU:
sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth
การตรวจจับวัตถุและการแบ่งส่วนอินสแตนซ์
การแบ่งส่วนความหมาย
ฐานรหัสการจำแนก (Imagenet) บางส่วนสร้างขึ้นด้วย Levit และ Poolformer
การตรวจจับและการแบ่งส่วนไปป์ไลน์มาจาก MMCV (MMDetection และ MMSegentation)
ขอบคุณสำหรับการใช้งานที่ยอดเยี่ยม!
หากรหัสหรือรุ่นของเราช่วยงานของคุณโปรดอ้างอิง EfficientFormer (Neurips 2022) และ EfficientFormerV2 (ICCV 2023):
@article { li2022efficientformer ,
title = { Efficientformer: Vision transformers at mobilenet speed } ,
author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
journal = { Advances in Neural Information Processing Systems } ,
volume = { 35 } ,
pages = { 12934--12949 } ,
year = { 2022 }
} @inproceedings { li2022rethinking ,
title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
booktitle = { Proceedings of the IEEE international conference on computer vision } ,
year = { 2023 }
}