

Transformator visi hierarkis yang kuat berdasarkan perhatian jendela geser.
Perhatian lingkungan (NA, perhatian lokal) diperkenalkan dalam makalah asli kami, NAT, dan berjalan secara efisien dengan ekstensi kami ke Pytorch, Natten.
Kami baru -baru ini memperkenalkan model baru, Dinat, yang memperluas NA dengan melebarkan lingkungan (Dina, perhatian global yang jarang, alias perhatian lokal melebar).
Kombinasi Na/Dina mampu melestarikan lokalitas, mempertahankan kesetaraan translasi, memperluas bidang reseptif secara eksponensial, dan menangkap ketergantungan antar-ketergantungan jarak yang lebih panjang, yang mengarah ke peningkatan kinerja yang signifikan dalam tugas-tugas penglihatan hilir, seperti Stylenat untuk pembuatan gambar.



Transformator visi hierarkis baru berdasarkan perhatian lingkungan (perhatian lokal) dan perhatian lingkungan yang melebar (perhatian global yang jarang) yang menikmati peningkatan kinerja yang signifikan dalam tugas -tugas hilir.
Lihatlah Dinat Readme.


Kertas asli kami, Neighborhood Attention Transformer (NAT), perhatian lokal geser geser yang efisien.
Perhatian lingkungan melokalisasi bidang reseptif token kueri (merah) ke token tetangga terdekatnya pada pasangan nilai kunci (hijau). Ini setara dengan perhatian-produk dot ketika ukuran lingkungan identik dengan dimensi gambar. Perhatikan bahwa tepi adalah kasing khusus (tepi).


@inproceedings { hassani2023neighborhood ,
title = { Neighborhood Attention Transformer } ,
author = { Ali Hassani and Steven Walton and Jiachen Li and Shen Li and Humphrey Shi } ,
booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) } ,
month = { June } ,
year = { 2023 } ,
pages = { 6185-6194 }
}
@article { hassani2022dilated ,
title = { Dilated Neighborhood Attention Transformer } ,
author = { Ali Hassani and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2209.15001 } ,
eprint = { 2209.15001 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}
@article { walton2022stylenat ,
title = { StyleNAT: Giving Each Head a New Perspective } ,
author = { Steven Walton and Ali Hassani and Xingqian Xu and Zhangyang Wang and Humphrey Shi } ,
year = 2022 ,
url = { https://arxiv.org/abs/2211.05770 } ,
eprint = { 2211.05770 } ,
archiveprefix = { arXiv } ,
primaryclass = { cs.CV }
}