ดาวน์โหลด EfficientFormer - ดาวน์โหลดซอร์สโค้ด EfficientFormer

EfficientFormer

หลาม

1.0.0

ดาวน์โหลด

EfficientFormerv2
_{ทบทวนการมองเห็นหม้อแปลงไฟฟ้าสำหรับขนาดและความเร็ว mobilenet}

arxiv PDF

โมเดลได้รับการฝึกฝนเกี่ยวกับ Imagenet-1K และนำไปใช้กับ iPhone 12 ด้วย coremltools เพื่อรับแฝง

ทบทวนการมองเห็นหม้อแปลงไฟฟ้าสำหรับขนาดและความเร็ว mobilenet
Yanyu Li ^1,2 , Ju Hu ¹ , Yang Wen ¹ , Georgios Evangelidis ¹ , Kamyar Salahi ³ ,
Yanzhi Wang ² , Sergey Tulyakov ¹ , Jian Ren ¹
¹ Snap Inc. , ² Northeastern University, ³ UC Berkeley

เชิงนามธรรม

ด้วยความสำเร็จของ Vision Transformers (VITS) ในงานการมองเห็นคอมพิวเตอร์ศิลปะล่าสุดพยายามเพิ่มประสิทธิภาพและความซับซ้อนของ VITS เพื่อให้การปรับใช้อย่างมีประสิทธิภาพบนอุปกรณ์มือถือ มีการเสนอวิธีการหลายวิธีเพื่อเร่งกลไกความสนใจปรับปรุงการออกแบบที่ไม่มีประสิทธิภาพหรือรวมความเชื่อมั่นที่มีน้ำหนักเบาที่เป็นมิตรกับมือถือเพื่อสร้างสถาปัตยกรรมไฮบริด อย่างไรก็ตาม VIT และตัวแปรของมันยังคงมีความหน่วงแฝงสูงกว่าหรือพารามิเตอร์มากกว่า CNN ที่มีน้ำหนักเบามากแม้จะเป็นจริงสำหรับ Mobilenet ที่มีอายุหลายปี ในทางปฏิบัติเวลาแฝงและขนาดเป็นสิ่งสำคัญสำหรับการปรับใช้อย่างมีประสิทธิภาพในฮาร์ดแวร์ที่ จำกัด ทรัพยากร ในงานนี้เราตรวจสอบคำถามสำคัญรุ่นหม้อแปลงสามารถทำงานได้เร็วเท่ากับ Mobilenet และรักษาขนาดที่ใกล้เคียงกันหรือไม่? เราทบทวนตัวเลือกการออกแบบของ VITS และเสนอ supernet ที่ได้รับการปรับปรุงด้วยเวลาแฝงต่ำและประสิทธิภาพพารามิเตอร์สูง เรายังแนะนำกลยุทธ์การค้นหาร่วมที่มีความละเอียดซึ่งสามารถค้นหาสถาปัตยกรรมที่มีประสิทธิภาพโดยการเพิ่มประสิทธิภาพเวลาแฝงและจำนวนพารามิเตอร์พร้อมกัน โมเดลที่เสนอ EfficientFormERV2 ได้รับความแม่นยำสูงกว่า 1 TOP-1 ประมาณ 4% กว่า Mobilenetv2 และ Mobilenetv2x1.4 บน ImageNet-1K ที่มีเวลาแฝงและพารามิเตอร์ที่คล้ายกัน เราแสดงให้เห็นว่าหม้อแปลงที่ได้รับการออกแบบอย่างเหมาะสมและปรับให้เหมาะสมสามารถบรรลุประสิทธิภาพสูงด้วยขนาดและความเร็วระดับ Mobilenet

Changelog และ Todos

เพิ่มตระกูลโมเดล EfficientFormerv2 รวมถึง efficientformerv2_s0 , efficientformerv2_s1 , efficientformerv2_s2 และ efficientformerv2_l
จุดตรวจสอบที่มีประสิทธิภาพของ EfficientFormerV2 บน Imagenet-1K ถูกปล่อยออกมา
อัปเดต EfficientFormerv2 ในงานดาวน์สตรีม (การตรวจจับการแบ่งส่วน)
จุดตรวจสอบในงานดาวน์สตรีม
เพิ่มเครื่องมือพิเศษสำหรับการทำโปรไฟล์และการปรับใช้ (เราใช้ COREML == 5.2 และ TORCH == 1.11) ตัวอย่างการใช้งาน:

 python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

ผู้มีประสิทธิภาพ
_{Vision Transformers ที่ความเร็ว Mobilenet}

arxiv PDF

รุ่นได้รับการฝึกฝนเกี่ยวกับ Imagenet-1K และวัดโดย iPhone 12 ด้วย coreMltools เพื่อรับความล่าช้า

EfficientFormer: Vision Transformers ที่ความเร็ว Mobilenet
Yanyu Li ^1,2 , Genge Yuan ^1,2 , Yang Wen ¹ , Eric Hu ¹ , Georgios Evangelidis ¹ ,
Sergey Tulyakov ¹ , Yanzhi Wang ² , Jian Ren ¹
¹ Snap Inc. , ² Northeastern University

เชิงนามธรรม

Vision Transformers (VIT) แสดงให้เห็นถึงความคืบหน้าอย่างรวดเร็วในงานการมองเห็นของคอมพิวเตอร์เพื่อให้ได้ผลลัพธ์ที่มีแนวโน้มเกี่ยวกับมาตรฐานที่หลากหลาย อย่างไรก็ตามเนื่องจากพารามิเตอร์จำนวนมากและการออกแบบแบบจำลองเช่นกลไกความสนใจโมเดลที่ใช้ VIT มักจะช้ากว่าเครือข่าย convolutional ที่มีน้ำหนักเบา ดังนั้นการปรับใช้ VIT สำหรับแอปพลิเคชันแบบเรียลไทม์จึงเป็นเรื่องที่ท้าทายเป็นพิเศษ ความพยายามล่าสุดพยายามลดความซับซ้อนในการคำนวณของ VIT ผ่านการค้นหาสถาปัตยกรรมเครือข่ายหรือการออกแบบไฮบริดด้วย Mobilenet Block แต่ความเร็วการอนุมานยังคงไม่น่าพอใจ สิ่งนี้นำไปสู่คำถามที่สำคัญ: หม้อแปลงสามารถทำงานได้เร็วเท่ากับ Mobilenet ในขณะที่ได้รับประสิทธิภาพสูงหรือไม่? เพื่อตอบคำถามนี้เราจะทบทวนสถาปัตยกรรมเครือข่ายและตัวดำเนินการที่ใช้ในโมเดลที่ใช้ VIT และระบุการออกแบบที่ไม่มีประสิทธิภาพ จากนั้นเราแนะนำหม้อแปลงบริสุทธิ์ที่สอดคล้องกับมิติ (ไม่มีบล็อก Mobilenet) เป็นกระบวนทัศน์การออกแบบ ในที่สุดเราก็ทำการลดขนาดเวลาแฝงเพื่อให้ได้ชุดของรุ่นสุดท้ายขนานนามว่ามีประสิทธิภาพ การทดลองอย่างกว้างขวางแสดงให้เห็นถึงความเหนือกว่าของประสิทธิภาพในประสิทธิภาพและความเร็วบนอุปกรณ์มือถือ โมเดลที่เร็วที่สุดของเรา EfficientFormer-L1 บรรลุความแม่นยำ 79.2% Top-1 ใน Imagenet-1K เพียง 1.6 มิลลิวินาทีในการอนุมานใน iPhone 12 (รวบรวมด้วย coreml) ซึ่งทำงานเร็วที่สุดเท่าที่ Mobilenetv2x1.4 (1.6 ms, 74.7% Top-1) งานของเราพิสูจน์ให้เห็นว่าหม้อแปลงที่ออกแบบอย่างเหมาะสมสามารถเข้าถึงเวลาแฝงที่ต่ำมากบนอุปกรณ์มือถือในขณะที่ยังคงประสิทธิภาพสูง

การจำแนกประเภท imagenet-1k

แบบจำลอง

แบบอย่าง	TOP-1 (300/450)	#params	Macs	ความหน่วงแฝง	CKPT	onnx	คนขี้เกียจ
EfficientFormerV2-S0	75.7 / 76.2	3.5m	0.40b	0.9ms	S0	S0	S0
EfficientFormerV2-S1	79.0 / 79.7	6.1m	0.65b	1.1ms	S1	S1	S1
EfficientFormerV2-S2	81.6 / 82.0	12.6m	1.25b	1.6ms	S2	S2	S2
EfficientFormerv2-L	83.3 / 83.5	26.1m	2.56b	2.7ms	l	l	l

แบบอย่าง	Top-1 ACC	ความหน่วงแฝง	จุดตรวจ Pytorch	คนขี้เกียจ	onnx
Efficientformer-L1	79.2 (80.2)	1.6ms	L1-300 (L1-1000)	L1	L1
Efficientformer-L3	82.4	3.0ms	L3	L3	L3
Efficientformer-L7	83.3	7.0ms	L7	L7	L7

การวัดความล่าช้า

เวลาแฝงที่รายงานใน EffCientFormerv2 สำหรับ iPhone 12 (iOS 16) ใช้เครื่องมือมาตรฐานจาก Xcode 14

สำหรับ EffcientFormerv1 เราใช้ Coreml-Performance ขอบคุณสำหรับการวัดเวลาแฝงที่ดี!

เคล็ดลับ : MacOS+XCode และอุปกรณ์มือถือ (iPhone 12) จำเป็นต้องใช้เพื่อทำซ้ำความเร็วที่รายงาน

ImageNet

ข้อกำหนดเบื้องต้น

แนะนำให้ใช้สภาพแวดล้อมเสมือนจริง conda

 conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

การเตรียมข้อมูล

ดาวน์โหลดและแยก Imagenet Train และ Val Images จาก http://image-net.org/ ข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้องคาดว่าจะอยู่ในโฟลเดอร์ train และโฟลเดอร์ val ตามลำดับ:

 |-- /path/to/imagenet/
    |-- train
    |-- val

การฝึกอบรม Multi-GPU แบบหลายเครื่อง

เราให้ตัวอย่างสคริปต์การฝึกอบรม dist_train.sh โดยใช้ Pytorch Distributed Data Parallel (DDP)

เพื่อฝึกอบรม EfficientFormer-L1 บนเครื่อง 8-GPU:

 sh dist_train.sh efficientformer_l1 8

เคล็ดลับ: ระบุเส้นทางข้อมูลและชื่อการทดลองของคุณในสคริปต์!

การฝึกแบบหลายโหนด

ในคลัสเตอร์ที่มีการจัดการแบบ slurm การฝึกอบรมแบบหลายโหนดสามารถเปิดใช้งานได้ผ่านทาง Submitit เช่น

 sh slurm_train.sh efficientformer_l1

เคล็ดลับ: ระบุ GPU/CPU/หน่วยความจำต่อโหนดในสคริปต์ตามทรัพยากรของคุณ!

การทดสอบ

เราให้ตัวอย่างสคริปต์ทดสอบ dist_test.sh โดยใช้ Pytorch Distributed Data Parallel (DDP) ตัวอย่างเช่นเพื่อทดสอบประสิทธิภาพ L1 บนเครื่อง 8-GPU:

 sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

การใช้ EfficientFormer เป็น backbone

การตรวจจับวัตถุและการแบ่งส่วนอินสแตนซ์
การแบ่งส่วนความหมาย

การรับทราบ

ฐานรหัสการจำแนก (Imagenet) บางส่วนสร้างขึ้นด้วย Levit และ Poolformer

การตรวจจับและการแบ่งส่วนไปป์ไลน์มาจาก MMCV (MMDetection และ MMSegentation)

ขอบคุณสำหรับการใช้งานที่ยอดเยี่ยม!

การอ้างอิง

หากรหัสหรือรุ่นของเราช่วยงานของคุณโปรดอ้างอิง EfficientFormer (Neurips 2022) และ EfficientFormerV2 (ICCV 2023):

 @article { li2022efficientformer ,
  title = { Efficientformer: Vision transformers at mobilenet speed } ,
  author = { Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 35 } ,
  pages = { 12934--12949 } ,
  year = { 2022 }
}

 @inproceedings { li2022rethinking ,
  title = { Rethinking Vision Transformers for MobileNet Size and Speed } ,
  author = { Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian } ,
  booktitle = { Proceedings of the IEEE international conference on computer vision } ,
  year = { 2023 }
}