Download swin transformer pytorch - swin transformer pytorch Download do código fonte

swin transformer pytorch

Pitão

ve Positional Bias

Baixar

Atenção linear

Transformador Swin - Pytorch

Implementação da arquitetura do transformador SWIN. Este artigo apresenta um novo transformador de visão, chamado Swin Transformer, que serve de maneira capaz como um backbone de uso geral para a visão computacional. Os desafios na adaptação do transformador da linguagem para a visão surgem das diferenças entre os dois domínios, como grandes variações na escala de entidades visuais e a alta resolução de pixels nas imagens em comparação com as palavras no texto. Para abordar essas diferenças, propomos um transformador hierárquico cuja representação é calculada com janelas deslocadas. O esquema de janela deslocado traz maior eficiência, limitando a computação de auto-atendimento a janelas locais sem sobreposição, além de permitir a conexão entre as janelas. Essa arquitetura hierárquica tem a flexibilidade de modelar em várias escalas e possui complexidade computacional linear em relação ao tamanho da imagem. Essas qualidades do transformador de SWIN tornam compatível com uma ampla gama de tarefas de visão, incluindo classificação de imagem (precisão 86.4 TOP-1 no ImageNet-1K) e tarefas densas de previsão, como detecção de objetos (58.7 Box AP e 51.1 Mask AP no Coco-test) e segmentação semântica (53,5 Miou em ADE20. Seu desempenho ultrapassa o estado da arte anterior por uma grande margem de +2,7 AP e +2,6 máscara AP no Coco e +3,2 miou no Ade20K, demonstrando o potencial dos modelos baseados em transformadores como backbones da visão.

Este não é o repositório oficial do transformador Swin. No momento, o código oficial dos autores ainda não está disponível, mas pode ser encontrado posteriormente em: https://github.com/microsoft/swin-transformer.

Todos os créditos vão para os autores Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin e Baining Guo.

Instalar

$ pip install swin-transformer-pytorch

ou (se você clonar o repositório)

$ pip install -r requirements.txt

Uso

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

Parâmetros

hidden_dim : int.
Que dimensão oculta você deseja usar para a arquitetura, observado C no artigo original
layers : 4-Tuple of Ints divisível por 2.
Quantas camadas em cada estágio para aplicar. Cada int deve ser divisível por dois, porque estamos sempre aplicando um swinblock regular e um swinblock.
heads : 4-tupla de ints
Quantas cabeças em cada estágio para aplicar.
channels : int.
Número de canais da entrada.
num_classes : int.
Num classes a saída deve ter.
head_dim : int.
Que dimensão cada cabeça deve ter.
window_size : int.
Qual tamanho da janela usar, verifique se, após cada redução das dimensões da imagem, ainda estão divisíveis pelo tamanho da janela.
downscaling_factors : 4-Tuple of Ints.
Que fator de redução de escala a ser usada em cada estágio. Verifique se a dimensão da imagem é grande o suficiente para os fatores de redução de escala.
relative_pos_embedding : bool.
Se deve usar a incorporação relativa de posição relativa (2m-1) x (2m-1) ou incorporações posicionais completas (m²xm²).

PENDÊNCIA

Ajuste o código e valide no ImageNet-1K e Coco 2017

Referências

Alguma parte do código é adaptada do repositório Pytorch - VisionTransformer https://github.com/lucidrains/vit-pytorch, que fornece uma implementação muito limpa do VisionTransformer.

Citações

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Expandir

Informações adicionais

Versão ve Positional Bias
Tipo Pitão
Data da Última Atualização 2025-07-15
tamanho 188.97KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
pytorch image models

2024-11-03
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Gravando o aplicativo Swin

2024-05-06
Versão móvel do Monster Transformer

2023-09-07
Aplicativo de nota de voz Swin

2023-06-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ToDo Co

Pitão

1.0.0
Python Portfolio

Pitão
datamule python

Pitão
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos