No campo da inteligência artificial, o lançamento do Deepseek-R1 marca um grande avanço na tecnologia de IA. Essa inovação não apenas demonstra o rápido desenvolvimento da indústria de IA, mas também abre novas possibilidades para futuras aplicações de IA por meio de sua arquitetura exclusiva de atenção latente de várias cabeças (MLA). Através da tecnologia de compressão de baixo rank, a arquitetura do MLA reduz significativamente o custo de treinamento e inferência, tornando-o apenas um décimo do mesmo modelo de desempenho. Esse resultado foi concluído em conjunto por Ji Tao, um pós -doutorado no Laboratório da PNL da Universidade Fudan e sua equipe. Seu objetivo é permitir que modelos arbitrários de grandes idiomas sejam treinados para migrar rapidamente para a arquitetura MLA através da estrutura do MHA2MLA sem a necessidade de treinar do zero.
Atualmente, os grandes modelos grandes são geralmente baseados em mecanismos padrão de atenção de várias cabeças (MHA) e suas variantes, que têm desvantagens significativas nos custos de inferência em comparação ao MLA. Para resolver esse problema, a equipe de pesquisa propôs a estrutura do MHA2MLA, que alcançou com sucesso a migração da arquitetura MHA/GQA para o MLA por meio de duas etapas principais-parte da retenção de corda e articulação de valor-chave para representar a aproximação de baixo rank. Essa inovação não apenas melhora a eficiência do modelo, mas também oferece mais possibilidades para futuros aplicativos de IA.

Durante a implementação do MHA2MLA, a equipe separou primeiro o local que codifica da grande dimensão através de algumas estratégias de ajuste fina de corda, mantendo um pequeno número de dimensões relacionadas à localização, resolvendo assim o conflito entre MLA e corda. Em seguida, uma aproximação de baixo rank dos vetores de valor-chave é realizada pela técnica de decomposição de valor singular (SVD) para maximizar o conhecimento pré-treinamento, reduzindo significativamente o espaço do cache. Resultados experimentais mostram que apenas o ajuste fino é necessário para usar 0,3% a 0,6% dos dados pré-terem previsto para restaurar basicamente as perdas de desempenho durante a migração. Essa conquista não apenas demonstra a eficiência da estrutura do MHA2MLA, mas também fornece novas direções para futuras pesquisas de IA.
Depois de serem combinados com outras técnicas de inferência eficientes, como a quantização do cache de KV de 4 bits, o cache KV do modelo LLAMA2-7B diminuiu 92,19%, enquanto a perda de desempenho é de apenas 0,5%. Esse resultado demonstra a compatibilidade superior da estrutura do MHA2MLA na tecnologia de compressão, mantendo a capacidade de inferência do modelo e a capacidade de processamento de contexto de longo prazo, fornecendo um novo caminho viável para implantar modelos de linguagem de grande eficiência de recursos. Essa inovação não apenas melhora a eficiência do modelo, mas também oferece mais possibilidades para futuros aplicativos de IA.
No entanto, a equipe de pesquisa também apontou que o experimento é limitado por condições de hardware e ainda não abordou modelos como o LLAMA3 que exigem 128k de ajuste fino de contexto de 128 mil. Pesquisas futuras se concentrarão em expandir para mais arquiteturas de modelos e combinar estratégias de ajuste fino de parâmetros eficientes para reduzir ainda mais a escala de atualizações de parâmetros durante o processo de migração. A pesquisa nessa direção fornecerá mais possibilidades para futuras aplicações de IA e promoverá o desenvolvimento adicional da tecnologia de IA.