人工知能の分野では、DeepSeekチームは最近、画期的な研究結果を発表し、NSA(ネイティブスパースの注意)と呼ばれる革新的なまばらな注意メカニズムを開始しました。このテクノロジーの中心的な目標は、最新のハードウェアパフォーマンスを最適化し、長いコンテキストトレーニングと推論の速度を大幅に改善することにより、AIモデルの開発とアプリケーションに革命をもたらすことです。
NSAテクノロジーの発売は、人工知能モデルのトレーニング効率の大幅な改善を示しています。最新のコンピューティングハードウェアの深い最適化により、NSAは推論速度を大幅に改善するだけでなく、トレーニング前のコストを大幅に削減します。さらに重要なことは、効率を向上させながら、NSAは依然として高レベルのモデルパフォーマンスを維持し、さまざまなタスクでの優れたパフォーマンスを確保することです。
DeepSeekチームは、研究で層状のスパース戦略を採用し、注意メカニズムを3つの重要な分岐、つまり圧縮、選択、スライドウィンドウに分割しました。この設計により、モデルはグローバルなコンテキストとローカルの詳細の両方をキャプチャでき、長いテキストのモデルの処理能力を大幅に改善できます。さらに、メモリアクセスとコンピューティングのスケジューリングにおけるNSAの最適化により、長いコンテキストトレーニングの計算遅延とリソース消費が大幅に削減されました。
NSAは、一連の一般的なベンチマークで優れたパフォーマンスを示しています。特に、長いコンテキストタスクと命令ベースの推論では、NSAのパフォーマンスは完全な注意モデルに匹敵し、場合によってはより良いです。このテクノロジーのリリースは、AIトレーニングと推論テクノロジーの別の飛躍をマークするだけでなく、人工知能の将来の開発に新しい推進力を注入します。
NSAペーパー(https://arxiv.org/pdf/2502.11089v1)。
NSAテクノロジーの導入により、長いコンテキストトレーニングと推論の速度が大幅に向上し、トレーニング前のコストが削減されます。層状のスパース戦略は、注意メカニズムを圧縮、選択、スライドウィンドウに分割するために採用されており、モデルの長いテキストの処理能力を高めます。 NSAはいくつかのベンチマークでうまく機能しましたが、場合によっては従来の完全な注意モデルを上回りました。