DeepSeek 在开源周首日正式发布了其最新技术成果——FlashMLA,这是一款专为英伟达Hopper架构GPU设计的高效多层注意力(Multi-Layer Attention)解码内核。该技术特别针对变长序列场景进行了优化,能够显著提升大模型的推理性能,为深度学习领域带来了新的突破。

FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现了更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上取得了显著的成绩:在内存受限场景下,处理速度达到了3000GB/s,而在计算受限场景下,算力水平更是高达580TFLOPS。
该项目已经通过了生产环境的验证,展现出优异的稳定性。开发团队表示,FlashMLA的设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验,并在此基础上实现了创新突破,进一步提升了其在复杂场景下的应用能力。
开发者可以通过简单的安装命令快速部署FlashMLA。只需执行"python setup.py install"即可完成安装,随后可以运行测试脚本"python tests/test_flash_mla.py"来体验其卓越的性能表现。
开源地址:https://github.com/deepseek-ai/FlashMLA