中国のAI分野のリーダーであるDeepseekは、オープンソースウィークの最終日に主要な技術をリリースしました。これは、最新のコンピューティングシナリオとそのサポートデータ処理フレームワークSmallpond向けに設計された高性能パラレルファイルシステム3FS(Fire-Flyer File System)です。このパンチの組み合わせは、AIトレーニングと推論におけるデータ処理の問題を直接解決し、6.6Tib/sのクラスタースループットで新しい業界記録を設定し、分散ストレージテクノロジーの新しい時代をマークします。

分散型アーキテクチャと強力な一貫したセマンティックデザインを通じて、3FSは180ノードクラスターで6.6Tib/sの集約された読み取りスループットを達成し、シングルノードKVCACHE検索ピークは40GIB/sを超えています。 GraySortベンチマークテストでは、3FSのパフォーマンスは3.66Tib/min(25ノード)に達し、従来のソリューションと比較して指数関数的な改善がありました。このシステムは、SSDおよびRDMAネットワークの特性を深く最適化し、ハードウェアの帯域幅の使用率を極端にプッシュし、キロカードレベルのAIトレーニングクラスターの安定したデータ供給を提供します。
DeepSeek V3/R1バージョンのコアインフラストラクチャとして、3FSは、データの前処理、チェックポイントストレージ、ベクトル検索、推論キャッシュなどの重要なリンクに完全に侵入しました。その共有ストレージ層の設計により、分散開発の複雑さが大幅に簡素化されますが、強力な一貫性保証により、大規模な同時操作のセキュリティが保証されます。オープンソースを備えたSmallpondフレームワークは、軽量のPEBレベルのデータ処理機能を構築し、DuckDBに依存して「サービスフリー」データエンジニアリングを実現し、ストレージからコンピューティングまで完全な生態学的閉ループを形成しました。
3FSとSmallpondのデュアルオープンソースは、Deepseekの「5日間の連続リリース」の技術的オープニングリズムを継続します。独自のAIビジネスによって公開されているシステムを作成することにより、DeepSeekは、データ集約型アプリケーションのストレージボトルネックを突破するよう業界を推進しています。アナリストは、このソリューションが、特に大規模なモデルトレーニングなどのシナリオで新しいパラダイムを開くために、CephやLusterなどの従来の分散システムに次元削減を引き起こす可能性があると考えています。
オープンソースアドレス:
3FS→https://github.com/deepseek-ai/3fs
smallpond -3fsのデータ処理フレームワーク→:https://github.com/deepseek-ai/smallpond