중국 AI 분야의 리더 인 DeepSeek는 오픈 소스 주간 마지막 날에 주요 기술을 발표했습니다. 최신 컴퓨팅 시나리오 및 지원 데이터 처리 프레임 워크 SmallPond를 위해 설계된 고성능 병렬 파일 시스템 3FS (Fire-Flyer 파일 시스템). 이러한 펀치 조합은 AI 교육 및 추론에서 데이터 처리 문제를 직접 해결하여 6.6TIB/s의 클러스터 처리량으로 새로운 산업 기록을 설정하여 분산 스토리지 기술의 새로운 시대를 표시합니다.

분산 된 아키텍처와 강력한 일관된 시맨틱 설계를 통해 3FS는 180- 노드 클러스터에서 6.6TIB/s의 집계 된 읽기 처리량을 달성했으며 단일 노드 KVCache 검색 피크는 40GIB/s를 초과했습니다. Graysort 벤치 마크 테스트에서 3FS의 성능은 전통적인 솔루션에 비해 기하 급수적으로 개선 된 3.66Tib/min (25 노드)에 도달했습니다. 이 시스템은 SSD 및 RDMA 네트워크의 특성을 깊이 최적화하고 하드웨어 대역폭 활용을 극단으로 푸시하며 킬로 카드 수준 AI 교육 클러스터에 안정적인 데이터 공급을 제공합니다.
DeepSeek V3/R1 버전의 핵심 인프라로서 3FS는 데이터 전처리, 체크 포인트 스토리지, 벡터 검색 및 추론 캐싱과 같은 주요 링크로 완전히 침투했습니다. 공유 스토리지 계층 설계는 분산 개발의 복잡성을 크게 단순화하는 반면, 강력한 일관성은 대규모 동시 운영의 보안을 보장합니다. 오픈 소스가 장착 된 Smallpond 프레임 워크는 경량 PEB 레벨 데이터 처리 기능을 구축했으며 DUCKDB에 의존하여 "서비스가없는"데이터 엔지니어링을 실현하여 스토리지에서 컴퓨팅에 이르기까지 완전한 생태적 폐쇄 루프를 형성했습니다.
3FS와 Smallpond의 듀얼 오픈 소스는 DeepSeek의 "5 일 연속 릴리스"의 기술 오프닝 리듬을 계속합니다. DeepSeek은 자체 AI 비즈니스로 입증 된 시스템을 공개하여 데이터 집약적 인 애플리케이션의 저장 병목 현상을 해결하도록 업계를 강화하고 있습니다. 분석가들은이 솔루션이 Ceph 및 Luster와 같은 전통적인 분산 시스템에 차원의 감소를 일으킬 수 있다고 생각합니다. 특히 대규모 모델 교육과 같은 시나리오에서 새로운 패러다임을 열어줍니다.
오픈 소스 주소 :
3FS → https://github.com/deepseek-ai/3fs
smallpond -3fs → : https://github.com/deepseek-ai/smallpond의 데이터 처리 프레임 워크