Neighborhood Attention Transformer
1.0.0


强大的层次视觉变压器基于滑动窗口的关注。
我们的原始论文NAT引入了邻里注意力(NA,本地关注),并随着向Natten Pytorch的扩展而有效地运行。
我们最近引入了一种新的模型Dinat,该模型通过扩张社区(Dina,稀疏的全球关注,又称本地关注)来扩展NA。
NA/DINA的组合能够保留位置,维持翻译模棱两可,呈指数式扩展并捕获长期相互依赖性,从而在下游视觉任务中显着提高性能,例如用于图像生成的Stylenat。



基于邻里注意力(当地注意力)和扩张邻里注意力(稀疏全球关注)的新的分层视觉变压器,在下游任务中具有显着的性能增强。
查看Dinat Readme。


我们的原始论文《邻里注意力变压器》(NAT),这是第一个有效的滑动窗口当地关注。
邻里的注意力将查询令牌的(红色)接收场定位在钥匙值对(绿色)中最近的附近令牌。当邻域大小与图像尺寸相同时,这等同于点产生的自我注意力。请注意,边缘是特殊的(边缘)情况。


@inproceedings { hassani2023neighborhood ,
title = { Neighborhood Attention Transformer } ,
author = { Ali Hassani and Steven Walton and Jiachen Li and Shen Li and Humphrey Shi } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2023 } ,
pages = { 6185-6194 }
}
@article { hassani2022dilated ,
title = { Dilated Neighborhood Attention Transformer } ,
author = { Ali Hassani and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2209.15001 } ,
eprint = { 2209.15001 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}
@article { walton2022stylenat ,
title = { StyleNAT: Giving Each Head a New Perspective } ,
author = { Steven Walton and Ali Hassani and Xingqian Xu and Zhangyang Wang and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2211.05770 } ,
eprint = { 2211.05770 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}