Dans le domaine de l'intelligence artificielle, l'équipe Deepseek a récemment publié un résultat de recherche révolutionnaire, lançant un mécanisme d'attention clairsemé innovant appelé NSA (attention clairsemée native). L'objectif principal de cette technologie est de révolutionner le développement et l'application des modèles d'IA en optimisant les performances matérielles modernes et en améliorant considérablement la vitesse de la formation et de l'inférence à long contexte.
Le lancement de la technologie NSA marque une amélioration significative de l'efficacité de formation des modèles d'intelligence artificielle. Grâce à une profonde optimisation du matériel informatique moderne, la NSA améliore non seulement considérablement la vitesse d'inférence, mais réduit également considérablement le coût de la pré-formation. Plus important encore, tout en améliorant l'efficacité, la NSA maintient toujours des niveaux élevés de performances du modèle, garantissant ses performances exceptionnelles dans une variété de tâches.
L'équipe Deepseek a adopté une stratégie clairsemée en couches dans l'étude, divisant le mécanisme d'attention en trois branches clés: compression, sélection et fenêtres coulissantes. Cette conception permet au modèle de capturer à la fois le contexte global et les détails locaux, améliorant considérablement la puissance de traitement du modèle pour un texte long. De plus, l'optimisation de la NSA dans l'accès à la mémoire et la planification informatique a considérablement réduit le retard de calcul et la consommation de ressources d'une formation contextuelle longue.
La NSA démontre ses performances exceptionnelles dans une série de références générales. Surtout dans les tâches de contexte long et le raisonnement basé sur l'instruction, les performances de la NSA sont même comparables au modèle d'attention complet, et dans certains cas, c'est mieux. La publication de cette technologie marque non seulement un autre saut dans la technologie de formation et de raisonnement en IA, mais injecte également un nouvel élan dans le développement futur de l'intelligence artificielle.
Paper NSA (https://arxiv.org/pdf/2502.11089v1).
L'introduction de la technologie NSA améliore considérablement la vitesse de la formation et du raisonnement à long terme et réduit les coûts de pré-formation. La stratégie clairsemée en couches est adoptée pour diviser le mécanisme d'attention en compression, sélection et fenêtres coulissantes, ce qui améliore la capacité de traitement du modèle du texte long. La NSA a bien fonctionné dans plusieurs repères, dans certains cas dépassant le modèle traditionnel d'attention complet.