swin transformer pytorch Download - swin transformer pytorch Code source Téléchargement

swin transformer pytorch

Python

ve Positional Bias

Télécharger

Attention à soi linéaire

Swin Transformer - Pytorch

Mise en œuvre de l'architecture Swin Transformer. Cet article présente un nouveau transformateur de vision, appelé Swin Transformer, qui sert de manière capable de squelette à usage général pour la vision par ordinateur. Les défis dans l'adaptation du transformateur du langage à la vision découlent des différences entre les deux domaines, tels que de grandes variations de l'échelle des entités visuelles et la haute résolution des pixels dans les images par rapport aux mots du texte. Pour répondre à ces différences, nous proposons un transformateur hiérarchique dont la représentation est calculée avec des fenêtres décalées. Le schéma de fenêtres décalé apporte une plus grande efficacité en limitant le calcul d'auto-attention aux fenêtres locales non chevauchantes tout en permettant une connexion croisée. Cette architecture hiérarchique a la flexibilité de modéliser à différentes échelles et a une complexité de calcul linéaire par rapport à la taille de l'image. Ces qualités de Swin Transformer le rendent compatible avec une large gamme de tâches de vision, y compris la classification des images (86,4 Top-1 précision sur ImageNet-1k) et des tâches de prédiction denses telles que la détection d'objets (58,7 Box AP et 51.1 Mask AP sur Coco Test-DEV) et segmentation sémantique (53,5 miou sur l'EDE20K Val). Ses performances dépasse l'état de l'état précédent par une grande marge de +2,7 boîte AP et +2,6 masque AP sur CoCo, et +3,2 Miou sur ADE20K, démontrant le potentiel des modèles basés sur les transformateurs comme squelette de vision.

Ce n'est pas le référentiel officiel du transformateur SWIN. À l'heure actuelle, le code officiel des auteurs n'est pas encore disponible, mais peut être trouvé plus tard à: https://github.com/microsoft/swin-transformateur.

Tous les crédits vont aux auteurs Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin et Baining Guo.

Installer

$ pip install swin-transformer-pytorch

ou (si vous clonez le référentiel)

$ pip install -r requirements.txt

Usage

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

Paramètres

hidden_dim : int.
Quelle dimension cachée que vous souhaitez utiliser pour l'architecture, notée C dans le papier d'origine
layers : 4-Tuple of INTS Divisible par 2.
Combien de couches à chaque étape à appliquer. Chaque INT doit être divisible par deux parce que nous appliquons toujours un objet de swin régulier et décalé ensemble.
heads : 4-tupiles d'INTS
Combien de têtes à chaque étape à appliquer.
channels : Int.
Nombre de canaux de l'entrée.
num_classes : int.
Classes NUM La sortie devrait avoir.
head_dim : int.
Quelle dimension chaque tête devrait avoir.
window_size : int.
La taille de la fenêtre à utiliser, assurez-vous qu'après chaque descente, les dimensions de l'image sont toujours divisibles par la taille de la fenêtre.
downscaling_factors : 4-Tuple of INTS.
Quel facteur de réduction d'échelle à utiliser à chaque étape. Assurez-vous que la dimension de l'image est suffisamment grande pour les facteurs de réduction d'échelle.
relative_pos_embedding : bool.
Que ce soit pour utiliser une position relative apprenable incorporer (2m-1) x (2m-1) ou des incorporations de position complète (m²xm²).

FAIRE

Ajuster le code et valider sur ImageNet-1k et Coco 2017

Références

Une partie du code est adaptée du référentiel Pytorch - VisionTransformateur https://github.com/lucidrains/vit-pytorch, qui fournit une implémentation VisionTransformateur très propre pour commencer.

Citations

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Développer

Informations supplémentaires

Version ve Positional Bias
Type Python
Date de mise à jour 2025-07-15
taille 188.97KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
pytorch image models

2024-11-03
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Application Enregistrement de The Swin

2024-05-06
Version mobile de Transformateur Monstre

2023-09-07
Application de note vocale Swin

2023-06-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout