Di bidang kecerdasan buatan, tim Deepseek baru -baru ini merilis hasil penelitian terobosan, meluncurkan mekanisme perhatian jarang yang inovatif yang disebut NSA (perhatian jarang asli). Tujuan inti dari teknologi ini adalah untuk merevolusi pengembangan dan penerapan model AI dengan mengoptimalkan kinerja perangkat keras modern dan secara signifikan meningkatkan kecepatan pelatihan dan inferensi konteks panjang.
Peluncuran teknologi NSA menandai peningkatan yang signifikan dalam efisiensi pelatihan model kecerdasan buatan. Melalui optimalisasi dalam perangkat keras komputasi modern, NSA tidak hanya sangat meningkatkan kecepatan inferensi, tetapi juga secara signifikan mengurangi biaya pra-pelatihan. Lebih penting lagi, sementara meningkatkan efisiensi, NSA masih mempertahankan tingkat kinerja model yang tinggi, memastikan kinerja yang luar biasa dalam berbagai tugas.
Tim Deepseek mengadopsi strategi jarang berlapis dalam penelitian ini, membagi mekanisme perhatian menjadi tiga cabang utama: kompresi, seleksi, dan jendela geser. Desain ini memungkinkan model untuk menangkap konteks global dan detail lokal, secara signifikan meningkatkan kekuatan pemrosesan model untuk teks panjang. Selain itu, optimasi NSA dalam akses memori dan penjadwalan komputasi telah sangat mengurangi keterlambatan komputasi dan konsumsi sumber daya pelatihan konteks panjang.
NSA menunjukkan kinerjanya yang luar biasa dalam serangkaian tolok ukur umum. Terutama dalam tugas konteks panjang dan penalaran berbasis instruksi, kinerja NSA bahkan sebanding dengan model perhatian penuh, dan dalam beberapa kasus lebih baik. Rilis teknologi ini tidak hanya menandai lompatan lain dalam pelatihan AI dan teknologi penalaran, tetapi juga menyuntikkan dorongan baru ke dalam pengembangan kecerdasan buatan di masa depan.
Kertas NSA (https://arxiv.org/pdf/2502.11089v1).
Pengenalan teknologi NSA secara signifikan meningkatkan kecepatan pelatihan konteks panjang dan penalaran dan mengurangi biaya pra-pelatihan. Strategi berlapis jarang diadopsi untuk membagi mekanisme perhatian menjadi kompresi, seleksi dan jendela geser, yang meningkatkan kemampuan pemrosesan model teks panjang. NSA berkinerja baik dalam beberapa tolok ukur, dalam beberapa kasus melampaui model perhatian penuh tradisional.