En el campo de la inteligencia artificial, el lanzamiento de Deepseek-R1 marca un gran avance en la tecnología de IA. Esta innovación no solo demuestra el rápido desarrollo de la industria de la IA, sino que también abre nuevas posibilidades para futuras aplicaciones de IA a través de su arquitectura única de atención latente de múltiples cabezas (MLA). A través de la tecnología de compresión de bajo rango, la arquitectura MLA reduce significativamente el costo de la capacitación e inferencia, por lo que es solo una décima parte del mismo modelo de rendimiento. Este resultado fue completado conjuntamente por Ji Tao, miembro postdoctoral en el Laboratorio de la PNL de la Universidad de Fudan y su equipo. Su objetivo es permitir que los modelos arbitrarios de lenguaje grande priorizado migren rápidamente a la arquitectura MLA a través del marco MHA2MLA sin la necesidad de entrenar desde cero.
Actualmente, los modelos grandes principales generalmente se basan en mecanismos estándar de atención múltiple (MHA) y sus variantes, que tienen desventajas significativas en los costos de inferencia en comparación con MLA. Para resolver este problema, el equipo de investigación propuso el marco MHA2MLA, que logró con éxito la migración de la arquitectura MHA/GQA a MLA a través de dos pasos clave: parte de la retención de la cuerda y la articulación clave para representar una aproximación de bajo rango. Esta innovación no solo mejora la eficiencia del modelo, sino que también proporciona más posibilidades para futuras aplicaciones de IA.

Durante la implementación de MHA2MLA, el equipo primero separó la ubicación que codificó la gran dimensión a través de algunas estrategias de ajuste de cuerda, reteniendo un pequeño número de dimensiones relacionadas con la ubicación, resolviendo así el conflicto entre MLA y cuerda. A continuación, una aproximación de bajo rango de los vectores de valor clave se realiza mediante la técnica de descomposición del valor singular (SVD) para maximizar el conocimiento previo al entrenamiento y al tiempo reduciendo significativamente el espacio de la caché. Los resultados experimentales muestran que solo se requiere ajuste fino para usar 0.3% a 0.6% de los datos previos a la aparición para restaurar básicamente las pérdidas de rendimiento durante la migración. Este logro no solo demuestra la eficiencia del marco MHA2MLA, sino que también proporciona nuevas direcciones para futuras investigaciones de IA.
Después de combinarse con otras técnicas de inferencia eficientes, como la cuantización de caché de KV de 4 bits, el caché de KV del modelo LLAMA2-7B ha disminuido en un 92.19%, mientras que la pérdida de rendimiento es de solo 0.5%. Este resultado demuestra la compatibilidad superior del marco MHA2MLA en la tecnología de compresión, al tiempo que mantiene la capacidad de inferencia del modelo y la larga capacidad de procesamiento de contexto, proporcionando una nueva ruta factible para implementar modelos de idiomas grandes eficientes en recursos. Esta innovación no solo mejora la eficiencia del modelo, sino que también proporciona más posibilidades para futuras aplicaciones de IA.
Sin embargo, el equipo de investigación también señaló que el experimento está limitado por las condiciones de hardware y aún no ha cubierto modelos como LLAMA3 que requieren un contexto de 128k largo ajuste. La investigación futura se centrará en expandirse a más arquitecturas de modelos y combinar estrategias eficientes de ajuste de parámetros para reducir aún más la escala de las actualizaciones de parámetros durante el proceso de migración. La investigación en esta dirección proporcionará más posibilidades para futuras aplicaciones de IA y promoverá el desarrollo adicional de la tecnología de IA.