中国AI领域的领军企业DeepSeek在开源周的最后一天发布了一项重磅技术——专为现代算力场景设计的高性能并行文件系统3FS(Fire-Flyer File System)及其配套数据处理框架Smallpond。这一组合拳直接解决了AI训练与推理中的数据处理难题,以6.6TiB/s的集群吞吐量创下行业新纪录,标志着分布式存储技术迈入了一个全新的时代。

3FS通过其去中心化架构和强一致性语义设计,在180节点集群中实现了6.6TiB/s的聚合读取吞吐量,单节点KVCache查找峰值更是突破了40GiB/s。在GraySort基准测试中,3FS的表现达到了3.66TiB/min(25节点),相比传统方案有了指数级的提升。该系统深度优化了SSD与RDMA网络的特性,将硬件带宽利用率推向极致,为千卡级AI训练集群提供了稳定的数据供给。
作为DeepSeek V3/R1版本的核心基础设施,3FS已经全面渗透到数据预处理、检查点存储、向量搜索及推理缓存等关键环节。其共享存储层设计显著简化了分布式开发的复杂度,而强一致性保障则确保了大规模并发操作的安全性。配套开源的Smallpond框架构建了轻量化的PB级数据处理能力,依托DuckDB实现了“无服务化”数据工程,形成了从存储到计算的完整生态闭环。
此次3FS与Smallpond的双重开源,延续了DeepSeek“五日连发”的技术开放节奏。通过将经过自身AI业务验证的系统公之于众,DeepSeek正在推动行业突破数据密集型应用的存储瓶颈。分析认为,这套方案或将对Ceph、Lustre等传统分布式系统形成降维打击,特别是在大模型训练等场景中开辟新的范式。
开源地址:
3FS → https://github.com/deepseek-ai/3FS
Smallpond -3FS→上的数据处理框架:https://github.com/deepseek-ai/smallpond