Deepseek, un líder en el campo de la IA en China, lanzó una tecnología importante en el último día de la Semana de Open Source: el sistema de archivos paralelo de alto rendimiento 3FS (sistema de archivos de flyer de fuego) diseñado para escenarios de computación modernos y su pequeño punto de apoyo del marco de procesamiento de datos. Esta combinación de golpes resuelve directamente los problemas de procesamiento de datos en capacitación e inferencia de IA, estableciendo un nuevo registro de la industria con un rendimiento de clúster de 6.6TIB/s, marcando una nueva era para la tecnología de almacenamiento distribuido.

A través de su arquitectura descentralizada y un diseño semántico consistente fuerte, 3FS ha logrado un rendimiento de lectura agregado de 6.6tib/s en un clúster de 180 nodos, y el pico de búsqueda de Kvcache de un solo nodo ha excedido los 40GIB/s. En la prueba de referencia de Graysort, el rendimiento de 3FS alcanzó 3.66TIB/min (25 nodos), una mejora exponencial en comparación con las soluciones tradicionales. Este sistema optimiza profundamente las características de las redes SSD y RDMA, empuja la utilización de ancho de banda de hardware al extremo y proporciona un suministro de datos estable para grupos de entrenamiento de IA a nivel de kilocard.
Como la infraestructura central de la versión Deepseek V3/R1, 3FS ha penetrado completamente en enlaces clave como el preprocesamiento de datos, el almacenamiento de puntos de control, la búsqueda de vectores y el almacenamiento en caché de inferencia. Su diseño de capa de almacenamiento compartido simplifica significativamente la complejidad del desarrollo distribuido, mientras que las fuertes garantías de consistencia garantizan la seguridad de las operaciones concurrentes a gran escala. El marco de Smallpond con código abierto ha construido capacidades livianas de procesamiento de datos a nivel de PEB y se basó en DuckDB para realizar ingeniería de datos "sin servicios", formando un circuito ecológico completo desde el almacenamiento hasta la computación.
El doble código abierto de 3FS y Smallpond continúa el ritmo de apertura tecnológica de la "liberación continua de cinco días" de Deepseek. Al hacer sistemas que han sido probados por su propio negocio de IA al público, Deepseek está presionando a la industria para que rompa los cuellos de botella de almacenamiento de aplicaciones intensivas en datos. Los analistas creen que esta solución puede causar un golpe de reducción de dimensionalidad a los sistemas distribuidos tradicionales como CEPH y brillo, especialmente para abrir nuevos paradigmas en escenarios como el entrenamiento de modelos grandes.
Dirección de código abierto:
3FS → https://github.com/deepseek-ai/3fs
Marco de procesamiento de datos en SmallPond -3FS →: https://github.com/deepseek-ai/smallpond