Deepseek 在开源周的第二日发布了一款重磅产品——DeepEP,这是首个面向混合专家模型(MoE)的开源EP通信库。该库专注于实现混合专家模型在训练和推理过程中的全栈优化,为开发者提供了一个高效且灵活的解决方案。
DeepEP 是一款专为混合专家模型(MoE)和专家并行(EP)设计的高性能通信库。其核心目标是通过提供高吞吐量和低延迟的多对多 GPU 内核,优化 MoE 调度和组合的效率。这一设计使得 DeepEP 在处理大规模模型时表现出色,尤其是在需要高效通信的场景中。

DeepEP 不仅支持 FP8 等低精度操作,还与 DeepSeek-V3 论文中提出的组限制门控算法完美契合。通过优化不对称域带宽转发的内核,例如将数据从 NVLink 域转发至 RDMA 域,DeepEP 显著提升了数据传输的效率。这些内核在训练和推理预填充任务中表现出色,并且能够灵活控制流处理器的数量,进一步提升了系统的可扩展性。

针对对延迟敏感的推理解码任务,DeepEP 提供了一组低延迟的内核,利用纯 RDMA 技术将延迟降至最低。此外,DeepEP 还引入了一种基于钩子的通信 - 计算重叠方法,这种方法在不占用任何流处理器资源的情况下,进一步提升了系统的整体性能。
在性能测试中,DeepEP 在 H800 和 CX7 InfiniBand 400Gb/s RDMA 网络卡上进行了多项测试。测试结果显示,正常内核在内节点和跨节点的带宽表现优异,而低延迟内核在延迟和带宽方面均达到了预期效果。具体而言,低延迟内核在处理 8 个专家时的延迟仅为 163 微秒,带宽高达 46GB/s。
DeepEP 经过充分测试,主要与 InfiniBand 网络兼容,但理论上也支持在收敛以太网(RoCE)上运行。为了确保不同流量类型之间不会相互干扰,建议在不同的虚拟通道中隔离流量,从而保证正常内核和低延迟内核的独立运行。
作为一款专为混合专家模型设计的高效通信库,DeepEP 在优化性能、降低延迟和灵活配置方面表现出色。无论是大规模模型训练还是对延迟敏感的推理任务,DeepEP 都能提供卓越的解决方案。
项目入口:https://x.com/deepseek_ai/status/1894211757604049133
划重点:
DeepEP 专为混合专家模型设计,提供高吞吐量和低延迟的通信解决方案。
支持多种低精度操作,并优化了数据转发的带宽性能。
经过测试与验证,DeepEP 兼容 InfiniBand 网络,适用于不同流量类型的隔离与管理。