Dans le domaine de l'intelligence artificielle, le lancement de Deepseek-R1 marque une percée majeure dans la technologie de l'IA. Cette innovation démontre non seulement le développement rapide de l'industrie de l'IA, mais ouvre également de nouvelles possibilités pour les futures applications d'IA grâce à son architecture d'attention latente multiples (MLA) unique. Grâce à la technologie de compression de bas rang, l'architecture MLA réduit considérablement le coût de la formation et de l'inférence, ce qui ne le rend qu'un dixième du même grand modèle de performance. Ce résultat a été achevé conjointement par Ji Tao, un boursier postdoctoral au laboratoire NLP de l'Université Fudan et de son équipe. Leur objectif est de permettre aux modèles arbitraires de grande langue pré-formés de migrer rapidement vers l'architecture MLA via le cadre MHA2MLA sans avoir besoin de s'entraîner à partir de zéro.
Actuellement, les grands modèles traditionnels sont généralement basés sur des mécanismes d'attention multiples standard (MHA) et leurs variantes, qui ont des inconvénients importants dans les coûts d'inférence par rapport au MLA. Pour résoudre ce problème, l'équipe de recherche a proposé le cadre MHA2MLA, qui a réussi à réaliser la migration de l'architecture MHA / GQA à MLA à travers deux étapes clés - une partie de la rétention de la corde et de la conjoint à valeur clé pour représenter l'approximation de faible rang. Cette innovation améliore non seulement l'efficacité du modèle, mais offre également plus de possibilités pour les futures applications d'IA.

Lors de la mise en œuvre de MHA2MLA, l'équipe a d'abord séparé l'emplacement codant de la grande dimension à travers certaines stratégies de réglage de la corde, conservant un petit nombre de dimensions liées à l'emplacement, résolvant ainsi le conflit entre MLA et corde. Ensuite, une approximation de faible rang des vecteurs de valeur clé est effectuée par une technique de décomposition de valeur singulière (SVD) pour maximiser les connaissances pré-formation tout en réduisant considérablement l'espace de cache. Les résultats expérimentaux montrent que seul le réglage fin est nécessaire pour utiliser 0,3% à 0,6% des données pré-étendues pour restaurer essentiellement les pertes de performances pendant la migration. Cette réalisation démontre non seulement l'efficacité du cadre MHA2MLA, mais fournit également de nouvelles directions pour la recherche future d'IA.
Après avoir été combinée avec d'autres techniques d'inférence efficaces, telles que la quantification du cache KV 4 bits, le cache KV du modèle LLAMA2-7B a diminué de 92,19% tandis que la perte de performance n'est que de 0,5%. Ce résultat démontre la compatibilité supérieure du cadre MHA2MLA dans la technologie de compression, tout en conservant la capacité d'inférence du modèle et la capacité de traitement de contexte long, offrant un nouveau chemin possible pour le déploiement de modèles de langage grand économe en ressources. Cette innovation améliore non seulement l'efficacité du modèle, mais offre également plus de possibilités pour les futures applications d'IA.
Cependant, l'équipe de recherche a également souligné que l'expérience est limitée par les conditions matérielles et n'a pas encore couvert de modèles tels que LLAMA3 qui nécessitent un réglage de contexte de 128 000 de long. Les recherches futures se concentreront sur l'expansion à plus d'architectures de modèle et à combiner des stratégies de réglage des paramètres efficaces pour réduire davantage l'échelle des mises à jour des paramètres pendant le processus de migration. La recherche dans ce sens fournira plus de possibilités pour les futures applications d'IA et favorisera le développement ultérieur de la technologie d'IA.