

Мощные иерархические трансформаторы зрения на основе внимания скольжения окна.
Внимание соседства (NA, местное внимание) было введено в нашей оригинальной статье, NAT и эффективно работает с нашим расширением на Pytorch, Natten.
Недавно мы представили новую модель Dinat, которая расширяет NA, расширяя районы (Dina, Sparsy Global Hite, AKA Dilated Local Hite).
Комбинации NA/DINA способны сохранять местность, поддерживать трансляционную эквивалентность, расширять рецептивное поле в геометрической прогрессии и захватывать более долгожданные взаимозависимости, что приводит к значительному повышению производительности в задачах зрения нижестоящих по течению, таких как Stylenat для генерации изображений.



Новый трансформер иерархического видения, основанный на внимании соседства (локальное внимание) и расширенного внимания соседства (редкое глобальное внимание), который обладает значительным повышением производительности в нижестоящих задачах.
Проверьте Dinat Readme.


Наша оригинальная статья, «Трансформер внимания соседства» (NAT), первое эффективное местное внимание скользящего окна.
Внимание соседства локализует восприимчивое поле «Восприимчивое поле Query Token» к ближайшим соседним токенам в паре ключевых значений (зеленый). Это эквивалентно внимательному вниманию точечного продукта, когда размер соседства идентичен размерам изображения. Обратите внимание, что края являются специальными (краевыми) случаями.


@inproceedings { hassani2023neighborhood ,
title = { Neighborhood Attention Transformer } ,
author = { Ali Hassani and Steven Walton and Jiachen Li and Shen Li and Humphrey Shi } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2023 } ,
pages = { 6185-6194 }
}
@article { hassani2022dilated ,
title = { Dilated Neighborhood Attention Transformer } ,
author = { Ali Hassani and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2209.15001 } ,
eprint = { 2209.15001 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}
@article { walton2022stylenat ,
title = { StyleNAT: Giving Each Head a New Perspective } ,
author = { Steven Walton and Ali Hassani and Xingqian Xu and Zhangyang Wang and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2211.05770 } ,
eprint = { 2211.05770 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}