人工知能の分野では、DeepSeek-R1の発売はAIテクノロジーの大きなブレークスルーを示しています。このイノベーションは、AI業界の急速な発展を実証するだけでなく、独自のマルチヘッド潜在的注意(MLA)アーキテクチャを通じて、将来のAIアプリケーションの新しい可能性を開きます。低ランク圧縮技術により、MLAアーキテクチャはトレーニングと推論のコストを大幅に削減し、同じパフォーマンスの大きなモデルの10分の1しか削減しません。この結果は、フダン大学と彼のチームのNLP研究所のポスドク研究員であるJi Taoによって共同で完了しました。彼らの目標は、任意の事前に訓練された大規模な言語モデルが、ゼロから訓練する必要なく、MHA2MLAフレームワークを介してMLAアーキテクチャに迅速に移行できるようにすることです。
現在、主流のビッグモデルは、一般に、MLAと比較して推論コストに大きな欠点がある標準的なマルチヘッド注意メカニズム(MHA)とそのバリアントに基づいています。この問題を解決するために、研究チームはMHA2MLAフレームワークを提案しました。これは、2つの重要なステップを介してMHA/GQAアーキテクチャのMLAへの移行を成功裏に達成しました。このイノベーションは、モデルの効率を向上させるだけでなく、将来のAIアプリケーションの可能性を提供します。

MHA2MLAの実装中、チームは最初に、ロープの微調整戦略を通じて大きな次元からエンコードを分離し、場所に関連する少数の次元を保持し、それによりMLAとロープの間の競合を解決しました。次に、キー値ベクトルの低ランク近似は、シングル値分解(SVD)手法によって実行され、トレーニング前の知識を最大化しながらキャッシュ空間を大幅に削減します。実験結果は、先立ったデータの0.3%から0.6%を使用して、移行中に基本的にパフォーマンス損失を回復するために微調整のみが必要であることを示しています。この成果は、MHA2MLAフレームワークの効率を実証するだけでなく、将来のAI研究の新しい方向性も提供します。
4ビットkVキャッシュ量子化などの他の効率的な推論手法と組み合わせると、llama2-7bモデルのKVキャッシュは92.19%減少しましたが、パフォーマンスの損失はわずか0.5%です。この結果は、モデルの推論能力と長いコンテキスト処理能力を維持しながら、圧縮技術におけるMHA2MLAフレームワークの優れた互換性を示し、リソース効率の良い大手言語モデルを展開するための新しい実行可能なパスを提供します。このイノベーションは、モデルの効率を向上させるだけでなく、将来のAIアプリケーションの可能性を提供します。
しかし、研究チームはまた、この実験はハードウェア条件によって制限されており、128Kの長さのコンテキスト微調整を必要とするLLAMA3などのモデルをまだカバーしていないことを指摘しました。将来の研究では、より多くのモデルアーキテクチャへの拡大と、移行プロセス中のパラメーター更新のスケールをさらに削減するための効率的なパラメーター微調整戦略を組み合わせることに焦点を当てます。この方向での研究は、将来のAIアプリケーションの可能性をより多く提供し、AIテクノロジーのさらなる開発を促進します。