No campo da inteligência artificial, a equipe Deepseek divulgou recentemente um resultado de pesquisa inovador, lançando um mecanismo de atenção escasso inovador chamado NSA (atenção esparsa nativa). O objetivo principal dessa tecnologia é revolucionar o desenvolvimento e a aplicação dos modelos de IA, otimizando o desempenho moderno do hardware e melhorando significativamente a velocidade do treinamento e inferência de longo contexto.
O lançamento da tecnologia NSA marca uma melhoria significativa na eficiência do treinamento dos modelos de inteligência artificial. Através da otimização profunda do hardware moderno da computação, a NSA não apenas melhora bastante a velocidade de inferência, mas também reduz significativamente o custo do pré-treinamento. Mais importante, ao melhorar a eficiência, a NSA ainda mantém altos níveis de desempenho do modelo, garantindo seu excelente desempenho em uma variedade de tarefas.
A equipe Deepseek adotou uma estratégia escassa em camadas no estudo, dividindo o mecanismo de atenção em três ramos -chave: compressão, seleção e janelas deslizantes. Esse design permite que o modelo capture o contexto global e os detalhes locais, melhorando significativamente o poder de processamento do modelo para texto longo. Além disso, a otimização da NSA no acesso à memória e agendamento de computação reduziu bastante o atraso computacional e o consumo de recursos do treinamento de contexto longo.
A NSA demonstra seu excelente desempenho em uma série de benchmarks gerais. Especialmente em tarefas de contexto longo e raciocínio baseado em instrução, o desempenho da NSA é comparável ao modelo de atenção total e, em alguns casos, é melhor. O lançamento dessa tecnologia não apenas marca outro salto na tecnologia de treinamento e raciocínio de IA, mas também injeta novo impulso no desenvolvimento futuro da inteligência artificial.
Papel NSA (https://arxiv.org/pdf/2502.11089v1).
A introdução da tecnologia da NSA melhora significativamente a velocidade do treinamento e raciocínio de longo contexto e reduz os custos pré-treinamento. A estratégia esparsa em camadas é adotada para dividir o mecanismo de atenção em compressão, seleção e janelas deslizantes, o que aprimora a capacidade de processamento do modelo de texto longo. A NSA teve um bom desempenho em vários benchmarks, em alguns casos, superando o modelo tradicional de atenção total.