Descarga swin transformer pytorch - swin transformer pytorch Código fuente de descarga

swin transformer pytorch

Pitón

ve Positional Bias

Descargar

Atención lineal

Transformador de giro - Pytorch

Implementación de la arquitectura del transformador de lanza. Este documento presenta un nuevo transformador de visión, llamado Transformador Swin, que sirve capacitándose como una columna vertebral de uso general para la visión por computadora. Los desafíos en la adaptación del transformador del lenguaje a la visión surgen de las diferencias entre los dos dominios, como las grandes variaciones en la escala de las entidades visuales y la alta resolución de los píxeles en las imágenes en comparación con las palabras en el texto. Para abordar estas diferencias, proponemos un transformador jerárquico cuya representación se calcula con ventanas desplazadas. El esquema de ventanas desplazados trae una mayor eficiencia al limitar el cálculo de autoatención a las ventanas locales no superpuestas al tiempo que permite una conexión de ventana cruzada. Esta arquitectura jerárquica tiene la flexibilidad de modelar a varias escalas y tiene complejidad computacional lineal con respecto al tamaño de la imagen. Estas cualidades del transformador Swin lo hacen compatible con una amplia gama de tareas de visión, incluida la clasificación de imágenes (86.4 Top-1 precisión en ImageNet-1K) y tareas de predicción densa como la detección de objetos (58.7 Box AP y 51.1 enmascaran AP en Coco-DEV) y segmentación semántica (53.5 Miou en ADE20K Val). Su rendimiento supera el estado anterior del arte por un gran margen de +2.7 Box AP y +2.6 Mask AP en Coco, y +3.2 Miou en ADE20K, lo que demuestra el potencial de los modelos basados en transformadores como backbons de visión.

Este no es el repositorio oficial del transformador de giro. En este momento, el código oficial de los autores aún no está disponible, pero se puede encontrar más tarde en: https://github.com/microsoft/swin-transformer.

Todos los créditos van a los autores Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin y Baining Guo.

Instalar

$ pip install swin-transformer-pytorch

o (si clona el repositorio)

$ pip install -r requirements.txt

Uso

 import torch
from swin_transformer_pytorch import SwinTransformer

net = SwinTransformer (
    hidden_dim = 96 ,
    layers = ( 2 , 2 , 6 , 2 ),
    heads = ( 3 , 6 , 12 , 24 ),
    channels = 3 ,
    num_classes = 3 ,
    head_dim = 32 ,
    window_size = 7 ,
    downscaling_factors = ( 4 , 2 , 2 , 2 ),
    relative_pos_embedding = True
)
dummy_x = torch . randn ( 1 , 3 , 224 , 224 )
logits = net ( dummy_x )  # (1,3)
print ( net )
print ( logits )

Parámetros

hidden_dim : int.
¿Qué dimensión oculta desea usar para la arquitectura, anotada C en el documento original?
layers : 4-Tuple de INTS Divisible por 2.
Cuántas capas en cada etapa aplicar. Cada INT debe ser divisible por dos porque siempre estamos aplicando un bloque de cañón regular y cambiado.
heads : 4-Tuple de INTS
Cuántas cabezas en cada etapa aplicar.
channels : int.
Número de canales de la entrada.
num_classes : int.
Clases NUM La salida debe tener.
head_dim : int.
Qué dimensión debería tener cada cabeza.
window_size : int.
Qué tamaño de ventana para usar, asegúrese de que después de cada reducción de escala las dimensiones de la imagen sigan divisibles por el tamaño de la ventana.
downscaling_factors : 4-Tuple de INTS.
Qué factor de reducción de escala para usar en cada etapa. Asegúrese de que la dimensión de la imagen sea lo suficientemente grande para los factores de reducción de escala.
relative_pos_embedding : bool.
Si se debe usar la incrustación relativa de posición de aprendizaje (2M-1) x (2m-1) o incrustaciones posicionales completas (m²xm²).

HACER

Ajuste el código y validar en ImageNet-1k y Coco 2017

Referencias

Alguna parte del código está adaptada del repositorio de Pytorch - VisionTransformer https://github.com/lucidrains/vit-pytorch, que proporciona una implementación de VisionTransformer muy limpia para comenzar.

Citas

 @misc { liu2021swin ,
      title = { Swin Transformer: Hierarchical Vision Transformer using Shifted Windows } , 
      author = { Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo } ,
      year = { 2021 } ,
      eprint = { 2103.14030 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CV }
}

Expandir

Información adicional

Versión ve Positional Bias
Tipo Pitón
Fecha de actualización 2025-07-15
tamaño 188.97KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
pytorch image models

2024-11-03
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Aplicación Grabando El Swin

2024-05-06
Versión móvil de Monster Transformer

2023-09-07
Aplicación de notas de voz Swin

2023-06-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
datamule python

Pitón
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo