swin transformer pytorch Download - swin transformer pytorch Source Code Unduh

swin transformer pytorch

ular piton

ve Positional Bias

Unduh

Perhatian diri linier

Swin Transformer - Pytorch

Implementasi Arsitektur Transformator Swin. Makalah ini menyajikan transformator visi baru, yang disebut Swin Transformer, yang mampu berfungsi sebagai tulang punggung tujuan umum untuk visi komputer. Tantangan dalam mengadaptasi transformator dari bahasa ke visi muncul dari perbedaan antara kedua domain, seperti variasi besar dalam skala entitas visual dan resolusi tinggi piksel dalam gambar dibandingkan dengan kata -kata dalam teks. Untuk mengatasi perbedaan -perbedaan ini, kami mengusulkan transformator hierarkis yang perwakilannya dihitung dengan jendela bergeser. Skema windowing yang bergeser membawa efisiensi yang lebih besar dengan membatasi perhitungan swadaya pada jendela lokal yang tidak tumpang tindih sementara juga memungkinkan untuk koneksi silang. Arsitektur hierarkis ini memiliki fleksibilitas untuk memodelkan pada berbagai skala dan memiliki kompleksitas komputasi linier sehubungan dengan ukuran gambar. Kualitas transformator Swin ini membuatnya kompatibel dengan berbagai tugas penglihatan, termasuk klasifikasi gambar (86,4 akurasi top-1 pada imagenet-1k) dan tugas prediksi padat seperti deteksi objek (58,7 kotak AP dan 51,1 topeng AP pada coco test-dev) dan segmentasi semantik (53,5 miou katup ade20kk coco). Kinerja melampaui canggih sebelumnya dengan margin besar +2.7 kotak AP dan +2.6 mask AP pada Coco, dan +3.2 MIOU pada ADE20K, menunjukkan potensi model berbasis transformator sebagai tulang punggung visi.

Ini bukan repositori resmi dari Swin Transformer. Saat ini kode resmi penulis belum tersedia tetapi dapat ditemukan nanti di: https://github.com/microsoft/swin-transformer.

Semua kredit pergi ke penulis Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin dan Baining Guo.

Memasang

$ pip install swin-transformer-pytorch

atau (jika Anda mengkloning repositori)

$ pip install -r requirements.txt

Penggunaan

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

Parameter

hidden_dim : int.
Dimensi tersembunyi apa yang ingin Anda gunakan untuk arsitektur, dicatat C dalam kertas asli
layers : 4-tuple dari INTS dapat dibagi dengan 2.
Berapa banyak lapisan di setiap tahap untuk diterapkan. Setiap int harus dibagi oleh dua karena kami selalu menerapkan swinblock biasa dan bergeser bersama.
heads : 4-tuple of ints
Berapa banyak kepala di setiap tahap untuk diterapkan.
channels : Int.
Jumlah saluran input.
num_classes : int.
Kelas NUM yang seharusnya dimiliki output.
head_dim : int.
Dimensi apa yang harus dimiliki setiap kepala.
window_size : int.
Ukuran jendela apa yang akan digunakan, pastikan bahwa setelah setiap downscaling dimensi gambar masih dapat dibagi berdasarkan ukuran jendela.
downscaling_factors : 4-tuple of ints.
Faktor downscaling apa yang digunakan di setiap tahap. Pastikan dimensi gambar cukup besar untuk faktor penurunan skala.
relative_pos_embedding : bool.
Apakah akan menggunakan embedding posisi relatif yang dapat dipelajari (2m-1) x (2m-1) atau embeddings posisi penuh (m²xm²).

Todo

Sesuaikan kode untuk dan validasi pada ImageNet-1K dan Coco 2017

Referensi

Beberapa bagian dari kode diadaptasi dari repositori Pytorch - VisionTransformer https://github.com/lucidrains/vit-pytorch, yang menyediakan implementasi visionransformer yang sangat bersih untuk memulai.

Kutipan

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Memperluas

Informasi Tambahan

Versi ve Positional Bias
Tipe ular piton
Waktu Pembaruan 2025-07-15
ukuran 188.97KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
pytorch image models

2024-11-03
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Merekam aplikasi Swin

2024-05-06
Versi seluler Monster Transformer

2023-09-07
Aplikasi catatan suara swin

2023-06-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
datamule python

ular piton
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua