인공 지능 분야에서 DeepSeek-R1의 출시는 AI 기술의 주요 획기적인 획기적인 것으로 나타납니다. 이 혁신은 AI 산업의 빠른 발전을 보여줄뿐만 아니라 MLA (Multi-Head Prentent Treatecture) 아키텍처를 통해 미래의 AI 응용 프로그램에 대한 새로운 가능성을 열어줍니다. 저 순위의 압축 기술을 통해 MLA 아키텍처는 교육 및 추론 비용을 크게 줄여 동일한 성능 큰 모델의 10 분의 1에 불과합니다. 이 결과는 Fudan University의 NLP 실험실의 박사후 연구원 인 Ji Tao와 그의 팀에 의해 공동으로 완료되었습니다. 그들의 목표는 임의의 미리 훈련 된 대형 언어 모델이 처음부터 훈련 할 필요없이 MHA2MLA 프레임 워크를 통해 MLA 아키텍처로 빠르게 마이그레이션 할 수 있도록하는 것입니다.
현재 주류 대형 모델은 일반적으로 표준 다중 헤드주의 메커니즘 (MHA)과 그 변형을 기반으로하며, 이들은 MLA와 비교하여 추론 비용에 상당한 단점이 있습니다. 이 문제를 해결하기 위해 연구팀은 MHA2MLA 프레임 워크를 제안했으며, 이는 로프 보유의 일부와 키 가치 조인트의 일부를 통해 MHA/GQA 아키텍처를 MLA로 마이그레이션하는 것을 성공적으로 달성했습니다. 이 혁신은 모델의 효율성을 향상시킬뿐만 아니라 향후 AI 응용 프로그램에 더 많은 가능성을 제공합니다.

MHA2MLA를 구현하는 동안 팀은 먼저 로프 미세 조정 전략을 통해 큰 차원에서 인코딩하는 위치를 분리하여 위치와 관련된 적은 수의 차원을 유지하여 MLA와 로프 간의 충돌을 해결합니다. 다음으로, 키 값 벡터의 낮은 순위 근사는 SVD (Singular Value Decomposition) 기술에 의해 수행되어 사전 훈련 지식을 최대화하면서 캐시 공간을 크게 줄입니다. 실험 결과에 따르면 미세 조정 만 미세 조정만이 마이그레이션 중에 성능 손실을 기본적으로 복원하기 위해 미세한 데이터의 0.3% ~ 0.6%를 사용해야합니다. 이 성과는 MHA2MLA 프레임 워크의 효율성을 보여줄뿐만 아니라 향후 AI 연구를위한 새로운 방향을 제공합니다.
4 비트 KV 캐시 양자화와 같은 다른 효율적인 추론 기술과 결합 된 후, LLAMA2-7B 모델의 KV 캐시는 92.19% 감소한 반면 성능 손실은 0.5%에 불과합니다. 이 결과는 압축 기술에서 MHA2MLA 프레임 워크의 우수한 호환성을 보여 주며, 모델의 추론 능력과 긴 컨텍스트 처리 능력을 유지하여 리소스 효율적인 대형 언어 모델을 배포하기위한 새로운 실현 가능한 경로를 제공합니다. 이 혁신은 모델의 효율성을 향상시킬뿐만 아니라 향후 AI 응용 프로그램에 더 많은 가능성을 제공합니다.
그러나 연구팀은 실험이 하드웨어 조건에 의해 제한되어 있으며 128k 길이의 컨텍스트 미세 조정이 필요한 LLAMA3과 같은 모델을 아직 다루지 않았다고 지적했다. 향후 연구는 더 많은 모델 아키텍처로 확장하고 효율적인 매개 변수 미세 조정 전략을 결합하여 마이그레이션 프로세스 중에 매개 변수 업데이트의 척도를 더욱 줄일 것입니다. 이 방향으로의 연구는 향후 AI 응용 프로그램에 더 많은 가능성을 제공하고 AI 기술의 추가 개발을 촉진 할 것입니다.