DeepSeek, лидер в области искусственного интеллекта в Китае, выпустил крупную технологию в последний день недели с открытым исходным кодом-высокопроизводительная параллельная файловая система 3FS (Fire-Flyer File System), предназначенная для современных сценариев вычислений и ее поддерживающей структуры обработки данных Sllpond. Эта комбинация ударов непосредственно решает проблемы обработки данных в обучении и выводе искусственного интеллекта, устанавливая новую отраслевую запись с помощью кластерной пропускной способности 6,6tib/s, отмечая новую эру для технологии распределенного хранения.

Благодаря своей децентрализованной архитектуре и сильной последовательной семантической конструкции 3FS достигла агрегированной пропускной способности считывания 6,6tib/s в кластере с 180 узлами, а один пик поиска Kvcache с одним узлом превысил 40gib/s. В тесте Braysort Benchmark производительность 3FS достигла 3,66tib/min (25 узлов), экспоненциальное улучшение по сравнению с традиционными решениями. Эта система глубоко оптимизирует характеристики сетей SSD и RDMA, подталкивает использование полосы пропускания оборудования на крайнюю часть и обеспечивает стабильную подачу данных для обучающих кластеров AI на уровне килокарта.
В качестве основной инфраструктуры версии DeepSeek V3/R1, 3FS полностью проникла в ключевые ссылки, такие как предварительная обработка данных, хранение контрольной точки, поиск вектора и кэширование вывода. Его общий дизайн уровня хранения значительно упрощает сложность распределенной разработки, в то время как надежная консистенция гарантий обеспечивает безопасность крупномасштабных параллельных операций. Фреймворк Smallpond с открытым исходным кодом создал легкие возможности обработки данных на уровне PEB и полагалась на DuckDB для реализации «без обслуживания» разработки данных, образуя полный экологический закрытый цикл от хранения до вычислений.
Двойной открытый исходный код 3FS и Smallpond продолжает технологический ритм открытия «пятидневный непрерывный выпуск Deepseek». Создавая системы, которые были доказаны его собственным бизнесом ИИ для общественности, DeepSeek подталкивает отрасль прорваться через узкие места для хранения приложений, интенсивных данных. Аналитики считают, что это решение может привести к сокращению размерности традиционных распределенных систем, таких как CEPH и Luster, особенно для открытия новых парадигм в таких сценариях, как большая модель.
Адрес с открытым исходным кодом:
3FS → https://github.com/deepseek-ai/3fs
Структура обработки данных на SmallPond -3FS →: https://github.com/deepseek-ai/smallpond