Deepseek, un leader dans le domaine de l'IA en Chine, a publié une technologie majeure le dernier jour de la semaine open source - le système de fichiers parallèles haute performance 3FS (système de fichiers de fiches) conçu pour les scénarios informatiques modernes et son cadre de traitement de traitement de données de support. Cette combinaison de punchs résout directement les problèmes de traitement des données dans la formation et l'inférence de l'IA, établissant un nouveau record de l'industrie avec un débit de cluster de 6,6tib / s, marquant une nouvelle ère pour la technologie de stockage distribuée.

Grâce à son architecture décentralisée et à une forte conception sémantique cohérente, 3FS a atteint un débit de lecture agrégé de 6,6 TIB / s dans un cluster de 180 nœuds, et le pic de recherche KVCACH à un nœud a dépassé les 40GIB / s. Dans le test de référence GraySort, les performances de 3FS ont atteint 3,66tib / min (25 nœuds), une amélioration exponentielle par rapport aux solutions traditionnelles. Ce système optimise profondément les caractéristiques des réseaux SSD et RDMA, pousse l'utilisation de la bande passante matérielle à l'extrême et fournit une offre de données stable pour les grappes de formation d'IA au niveau du kilocard.
En tant qu'infrastructure centrale de la version V3 / R1 Deepseek, 3FS a entièrement pénétré dans des liens clés tels que le prétraitement des données, le stockage de points de contrôle, la recherche de vecteurs et la mise en cache d'inférence. Sa conception de la couche de stockage partagée simplifie considérablement la complexité du développement distribué, tandis que de fortes garanties de cohérence garantissent la sécurité des opérations simultanées à grande échelle. Le framework à petits états avec open source a construit des capacités de traitement des données de niveau PEB léger et s'est appuyé sur DuckDB pour réaliser l'ingénierie des données "sans service", formant une boucle écologique complète du stockage au calcul.
La double source open source de 3FS et de SallPond continue le rythme d'ouverture technologique de la "libération continue à cinq jours" de Deepseek. En créant des systèmes qui ont été prouvés par ses propres activités d'IA au public, Deepseek pousse l'industrie à percer les goulots d'étranglement de stockage d'applications à forte intensité de données. Les analystes estiment que cette solution peut provoquer un coup de réduction de la dimensionnalité aux systèmes distribués traditionnels tels que le CEPH et le lustre, en particulier pour ouvrir de nouveaux paradigmes dans des scénarios tels que la formation des grands modèles.
Adresse open source:
3fs → https://github.com/deepseek-ai/3fs
Framework de traitement des données sur Sallpond -3fs →: https://github.com/deepseek-ai/smallpond