Deepseek, seorang pemimpin di bidang AI di Cina, merilis teknologi besar pada hari terakhir minggu open source-sistem file paralel kinerja tinggi 3FS (sistem file pemadam api) yang dirancang untuk skenario komputasi modern dan kerangka kerja pemrosesan data pendukungnya. Kombinasi pukulan ini secara langsung memecahkan masalah pemrosesan data dalam pelatihan dan inferensi AI, menetapkan catatan industri baru dengan throughput cluster 6.6Tib/s, menandai era baru untuk teknologi penyimpanan terdistribusi.

Melalui arsitekturnya yang terdesentralisasi dan desain semantik yang konsisten yang kuat, 3FS telah mencapai throughput baca agregat 6.6TIB/S dalam kluster 180-node, dan puncak pencarian KVCACHE tunggal telah melebihi 40Gib/s. Dalam tes benchmark Graysort, kinerja 3FS mencapai 3,66TIB/mnt (25 node), peningkatan eksponensial dibandingkan dengan solusi tradisional. Sistem ini sangat mengoptimalkan karakteristik jaringan SSD dan RDMA, mendorong pemanfaatan bandwidth perangkat keras ke ekstrem, dan menyediakan pasokan data yang stabil untuk kelompok pelatihan AI tingkat kilokard.
Sebagai infrastruktur inti dari versi Deepseek V3/R1, 3FS telah sepenuhnya menembus ke tautan utama seperti preprocessing data, penyimpanan pos pemeriksaan, pencarian vektor dan caching inferensi. Desain lapisan penyimpanan bersama secara signifikan menyederhanakan kompleksitas pengembangan terdistribusi, sementara konsistensi yang kuat menjamin memastikan keamanan operasi bersamaan berskala besar. Kerangka kerja kecil dengan open source telah membangun kemampuan pemrosesan data tingkat PEB yang ringan, dan mengandalkan DuckDB untuk mewujudkan rekayasa data "bebas layanan", membentuk loop tertutup ekologis lengkap dari penyimpanan ke komputasi.
Dual open source 3FS dan smallpond melanjutkan ritme pembukaan teknologi dari "rilis kontinu lima hari" Deepseek. Dengan membuat sistem yang telah dibuktikan oleh bisnis AI sendiri kepada publik, Deepseek mendorong industri untuk menerobos kemacetan penyimpanan aplikasi intensif data. Analis percaya bahwa solusi ini dapat menyebabkan pukulan pengurangan dimensi pada sistem terdistribusi tradisional seperti CEPH dan Luster, terutama untuk membuka paradigma baru dalam skenario seperti pelatihan model besar.
Alamat Sumber Terbuka:
3FS → https://github.com/deepseek-ai/3fs
Kerangka Pemrosesan Data pada Smallpond -3FS →: https://github.com/deepseek-ai/smallpond