Deepseekは、NVIDIA Hopper Architecture GPU専用に設計されたマルチレイヤーの注意デコードカーネルであるFlashmlaであるFlashmlaであるFlashmlaであるFlashmlaです。このテクノロジーは、さまざまな長さのシーケンスシナリオ用に特に最適化されており、大きなモデルの推論パフォーマンスを大幅に改善し、深い学習の分野に新しいブレークスルーをもたらすことができます。

FlashMLAのコア技術的特徴には、BF16精度の包括的なサポートと、より正確なメモリ管理を実現するために、64のブロックサイズのページKVキャッシュシステムの使用が含まれます。 CUDA12.6プラットフォームに基づいてパフォーマンスの観点から、FlashMLAはH800SXM5GPUで顕著な結果を達成しています。メモリが制約したシナリオでは、処理速度は3000GB/sに達し、コンピューティングに制約のシナリオでは、コンピューティングパワーレベルが580TFLOPSになります。
このプロジェクトは、生産環境の検証に合格し、優れた安定性を示しています。開発チームは、Flashmlaの設計により、Flashattention2&3やCutlassなどのプロジェクトの優れたエクスペリエンスを借りており、これに基づいて革新的なブレークスルーを達成し、複雑なシナリオでのアプリケーション機能をさらに改善したと述べました。
開発者は、簡単なインストールコマンドでFlashmlaをすばやく展開できます。 「python setup.pyインストール」を実行してインストールを完了するだけで、テストスクリプト「python tests/test_flash_mla.py」を実行して、優れたパフォーマンスを体験できます。
オープンソースアドレス:https://github.com/deepseek-ai/flashmla