swin transformer pytorch Download - swin transformer pytorch Quellcode Download

swin transformer pytorch

Python

ve Positional Bias

Herunterladen

Lineare Selbstaufschlag

Swin -Transformator - Pytorch

Implementierung der Swin -Transformer -Architektur. Dieses Papier präsentiert einen neuen Vision-Transformator, der Swin Transformator namens Swin Transformator, der in der Lage als allgemeines Rückgrat für Computer Vision dient. Herausforderungen bei der Anpassung des Transformators von Sprache zu Vision ergeben sich aus Unterschieden zwischen den beiden Domänen, wie z. Um diese Unterschiede anzugehen, schlagen wir einen hierarchischen Transformator vor, dessen Darstellung mit veränderten Fenstern berechnet wird. Das verschobene Fensterschema führt zu einer größeren Effizienz, indem die Selbstbekämpfungsberechnung auf nicht überlappende lokale Fenster beschränkt und gleichzeitig eine Cross-Window-Verbindung ermöglicht wird. Diese hierarchische Architektur hat die Flexibilität, auf verschiedenen Maßstäben zu modellieren und in Bezug auf die Bildgröße eine lineare rechnerische Komplexität. Diese Qualitäten des Swin-Transformators machen es mit einer breiten Palette von Sehvermögen kompatibel, einschließlich Bildklassifizierung (86.4 Top-1-Genauigkeit auf ImageNet-1K) und dichten Vorhersageaufgaben wie Objekterkennung (58,7 Box AP und 51.1 Mask AP auf Coco-Test-Dev) und semantischer Segmentierung (53,5 Miou auf Ade20K Val). Seine Leistung übertrifft die vorherige hochmoderne Leistung mit einem großen Rand von +2,7 Box AP und +2,6 Mask AP auf CoCo und +3,2 Miou auf ADE20K, was das Potenzial von transformatorbasierten Modellen als Sehklemme zeigt.

Dies ist nicht das offizielle Repository des Swin -Transformators. Im Moment ist der offizielle Code der Autoren noch nicht verfügbar, kann aber später unter: https://github.com/microsoft/swin-transformer gefunden werden.

Alle Credits gehen an die Autoren Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin und Baining Guo.

Installieren

$ pip install swin-transformer-pytorch

oder (wenn Sie das Repository klonen)

$ pip install -r requirements.txt

Verwendung

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

Parameter

hidden_dim : int.
Welche verborgene Dimension, die Sie für die Architektur verwenden möchten, wurde C im Originalpapier festgestellt
layers : 4-Tuple of INTs teilbar durch 2.
Wie viele Schichten in jeder Phase anwenden. Jedes INT sollte durch zwei teilbar sein, da wir immer einen normalen und veränderten Swinblock zusammenwenden.
heads : 4-Tuple of INTs
Wie viele Köpfe in jeder Stufe zu bewerben.
channels : int.
Anzahl der Kanäle des Eingangs.
num_classes : int.
NUM -Klassen Die Ausgabe sollte haben.
head_dim : int.
Welche Dimension jeder Kopf sollte haben.
window_size : int.
Welche Fenstergröße zu verwenden ist, stellen Sie sicher, dass die Bildabmessungen nach jedem Downcaling durch die Fenstergröße immer noch teilbar sind.
downscaling_factors : 4-Tuple of INTs.
Welchen Downscaling -Faktor in jeder Phase zu verwenden? Stellen Sie sicher, dass die Bilddimension groß genug ist, um Downscaling -Faktoren zu erhalten.
relative_pos_embedding : bool.
Ob Sie eine lernbare relative Position einbetten (2M-1) x (2M-1) oder vollständige Positionseinbettungen (m²xm²).

Todo

Passen Sie den Code für ImageNet-1K und Coco 2017 an und validieren Sie sie

Referenzen

Ein Teil des Codes ist aus dem Pytorch - VisionTransformer Repository https://github.com/lucidrains/vit-pytorch angepasst, das zunächst eine sehr saubere Visiontransformer -Implementierung bietet.

Zitate

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}