

Transformadores de visão hierárquica poderosos com base na atenção da janela deslizante.
A atenção da vizinhança (NA, atenção local) foi introduzida em nosso artigo original, NAT, e é executado com eficiência com nossa extensão a Pytorch, Natten.
Recentemente, introduzimos um novo modelo, Dinat, que estende a NA dilatando bairros (Dina, atenção global esparsa, também conhecida como atenção local dilatada).
As combinações de Na/Dina são capazes de preservar a localidade, manter a equivalência da tradução, expandir o campo receptivo exponencialmente e capturar interdependências de longo alcance, levando a um aumento significativo de desempenho em tarefas de visão a jusante, como o Stylenat para a geração de imagens.



Um novo transformador de visão hierárquica baseado na atenção da vizinhança (atenção local) e atenção dilatada do bairro (atenção global esparsa) que desfruta de um aumento significativo de desempenho em tarefas a jusante.
Confira o Dinat Readme.


Nosso artigo original, Transformador de Atenção do Bairro (NAT), a primeira atenção local eficiente da janela deslizante.
A atenção do bairro localiza o campo receptivo do token da consulta (vermelho) para seus fichas vizinhas mais próximas no par de valores-chave (verde). Isso é equivalente à atenção do produto de ponto quando o tamanho do bairro é idêntico às dimensões da imagem. Observe que as bordas são casos especiais (Edge).


@inproceedings { hassani2023neighborhood ,
title = { Neighborhood Attention Transformer } ,
author = { Ali Hassani and Steven Walton and Jiachen Li and Shen Li and Humphrey Shi } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2023 } ,
pages = { 6185-6194 }
}
@article { hassani2022dilated ,
title = { Dilated Neighborhood Attention Transformer } ,
author = { Ali Hassani and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2209.15001 } ,
eprint = { 2209.15001 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}
@article { walton2022stylenat ,
title = { StyleNAT: Giving Each Head a New Perspective } ,
author = { Steven Walton and Ali Hassani and Xingqian Xu and Zhangyang Wang and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2211.05770 } ,
eprint = { 2211.05770 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}