swin transformer pytorch ดาวน์โหลด - swin transformer pytorch ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

swin transformer pytorch

หลาม

ve Positional Bias

ดาวน์โหลด

ความสนใจตัวเองเชิงเส้น

Swin Transformer - Pytorch

การดำเนินการตามสถาปัตยกรรมของ Swin Transformer บทความนี้นำเสนอหม้อแปลงวิสัยทัศน์ใหม่ที่เรียกว่า Swin Transformer ซึ่งทำหน้าที่เป็นกระดูกสันหลังอเนกประสงค์ทั่วไปสำหรับการมองเห็นคอมพิวเตอร์ ความท้าทายในการปรับหม้อแปลงจากภาษาสู่การมองเห็นเกิดขึ้นจากความแตกต่างระหว่างสองโดเมนเช่นการเปลี่ยนแปลงขนาดใหญ่ในระดับของเอนทิตีภาพและความละเอียดสูงของพิกเซลในภาพเมื่อเทียบกับคำในข้อความ เพื่อจัดการกับความแตกต่างเหล่านี้เราเสนอหม้อแปลงลำดับชั้นซึ่งเป็นตัวแทนคำนวณด้วยหน้าต่างที่เลื่อน รูปแบบการขยับของ Windowing ทำให้มีประสิทธิภาพมากขึ้นโดยการ จำกัด การคำนวณด้วยตนเองเพื่อการไม่ใช้หน้าต่างในท้องถิ่นที่ไม่ทับซ้อนในขณะที่ยังช่วยให้การเชื่อมต่อข้ามหน้าต่าง สถาปัตยกรรมแบบลำดับชั้นนี้มีความยืดหยุ่นในการสร้างแบบจำลองในระดับต่าง ๆ และมีความซับซ้อนในการคำนวณเชิงเส้นที่เกี่ยวกับขนาดภาพ คุณภาพของหม้อแปลง Swin เหล่านี้ทำให้เข้ากันได้กับงานการมองเห็นที่หลากหลายรวมถึงการจำแนกภาพ (86.4 ความแม่นยำ TOP-1 บน Imagenet-1K) และงานการทำนายหนาแน่นเช่นการตรวจจับวัตถุ (58.7 กล่อง AP และ 51.1 หน้ากาก AP Coco Test-Dev) ประสิทธิภาพของมันเกินกว่าสถานะก่อนหน้านี้โดยระยะขอบขนาดใหญ่ที่ +2.7 Box AP และ +2.6 Mask AP บน Coco และ +3.2 MIOU บน ADE20K แสดงให้เห็นถึงศักยภาพของโมเดลที่ใช้หม้อแปลง

นี่ ไม่ใช่ ที่เก็บอย่างเป็นทางการของหม้อแปลง Swin ในขณะนี้รหัสอย่างเป็นทางการของผู้เขียนยังไม่พร้อมใช้งาน แต่สามารถพบได้ในภายหลังได้ที่: https://github.com/microsoft/swin-transformer

เครดิตทั้งหมดไปที่ผู้เขียน Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin และ Baining Guo

ติดตั้ง

$ pip install swin-transformer-pytorch

หรือ (ถ้าคุณโคลนที่เก็บ)

$ pip install -r requirements.txt

การใช้งาน

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

พารามิเตอร์

hidden_dim : int
คุณต้องการใช้มิติที่ซ่อนอยู่สำหรับสถาปัตยกรรม C
layers : 4-tuple ของ ints หารด้วย 2
กี่ชั้นในแต่ละขั้นตอนที่จะใช้ INT ทุกตัวควรหารด้วยสองเพราะเรามักจะใช้ Swinblock ปกติและขยับเข้าด้วยกัน
heads : 4-tuple ของ ints
จะใช้กี่หัวในแต่ละขั้นตอน
channels : int.
จำนวนช่องสัญญาณของอินพุต
num_classes : int
คลาส NUM เอาต์พุตควรมี
head_dim : int
หัวแต่ละหัวควรมี
window_size : int
ขนาดหน้าต่างที่จะใช้ตรวจสอบให้แน่ใจว่าหลังจากการลดขนาดแต่ละขนาดภาพยังคงหารด้วยขนาดหน้าต่าง
downscaling_factors : 4-tuple ของ ints
ปัจจัยลดขนาดที่จะใช้ในแต่ละขั้นตอน ตรวจสอบให้แน่ใจว่ามิติภาพมีขนาดใหญ่พอสำหรับปัจจัยการลดขนาด
relative_pos_embedding : BOOL
ไม่ว่าจะใช้การฝังตำแหน่งสัมพัทธ์ที่เรียนรู้ได้ (2m-1) x (2m-1) หรือฝังตำแหน่งเต็มตำแหน่ง (m²xm²)

สิ่งที่ต้องทำ

ปรับรหัสและตรวจสอบความถูกต้องบน Imagenet-1K และ Coco 2017

การอ้างอิง

บางส่วนของรหัสถูกดัดแปลงจากที่เก็บของ VisionTransformer https://github.com/lucidrains/vit-pytorch ซึ่งให้การใช้งานที่สะอาดมาก

การอ้างอิง

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน ve Positional Bias
ประเภท หลาม
เวลาอัปเดต 2025-07-15
ขนาด 188.97KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
pytorch image models

2024-11-03
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
อัดแอพ The Swin

2024-05-06
มอนสเตอร์ทรานส์ฟอร์มเมอร์เวอร์ชั่นมือถือ

2023-09-07
แอพบันทึกเสียง Swin

2023-06-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ToDo Co

หลาม

1.0.0
Python Portfolio

หลาม
datamule python

หลาม
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด