En el campo de la inteligencia artificial, el equipo de Deepseek lanzó recientemente un resultado de la investigación innovador, lanzando un innovador mecanismo de atención escasa llamado NSA (atención escasa nativa). El objetivo central de esta tecnología es revolucionar el desarrollo y la aplicación de modelos de IA optimizando el rendimiento moderno del hardware y mejorando significativamente la velocidad de la capacitación e inferencia de contexto largo.
El lanzamiento de la tecnología NSA marca una mejora significativa en la eficiencia de capacitación de los modelos de inteligencia artificial. A través de una profunda optimización del hardware de computación moderno, la NSA no solo mejora en gran medida la velocidad de inferencia, sino que también reduce significativamente el costo de la capacitación previa. Más importante aún, mientras mejora la eficiencia, la NSA aún mantiene altos niveles de rendimiento del modelo, asegurando su rendimiento sobresaliente en una variedad de tareas.
El equipo de Deepseek adoptó una estrategia dispersa en capas en el estudio, dividiendo el mecanismo de atención en tres ramas clave: compresión, selección y ventanas deslizantes. Este diseño permite al modelo capturar tanto el contexto global como los detalles locales, mejorando significativamente la potencia de procesamiento del modelo para texto largo. Además, la optimización de la NSA en el acceso a la memoria y la programación de la computación ha reducido en gran medida el retraso computacional y el consumo de recursos de una larga capacitación en contexto.
NSA demuestra su excelente rendimiento en una serie de puntos de referencia generales. Especialmente en tareas de contexto largas y razonamiento basado en la instrucción, el rendimiento de la NSA es incluso comparable al modelo de atención completa, y en algunos casos es mejor. El lanzamiento de esta tecnología no solo marca otro salto en la tecnología de capacitación y razonamiento de IA, sino que también inyecta un nuevo impulso en el desarrollo futuro de la inteligencia artificial.
Papel NSA (https://arxiv.org/pdf/2502.11089v1).
La introducción de la tecnología NSA mejora significativamente la velocidad del largo entrenamiento y razonamiento del contexto y reduce los costos de pre-entrenamiento. La estrategia dispersa en capas se adopta para dividir el mecanismo de atención en la compresión, la selección y las ventanas deslizantes, lo que mejora la capacidad de procesamiento del modelo de texto del modelo. La NSA se desempeñó bien en varios puntos de referencia, en algunos casos superando el modelo tradicional de atención completa.