Ketika set data terus berkembang dan kompleksitas pemrosesan terdistribusi meningkat, alur kerja data modern menghadapi tantangan yang meningkat. Banyak organisasi telah menemukan kekurangan yang signifikan dalam sistem pemrosesan data tradisional dalam hal waktu pemrosesan, keterbatasan memori, dan manajemen tugas terdistribusi. Dalam konteks ini, para ilmuwan dan insinyur data sering perlu menghabiskan banyak waktu untuk pemeliharaan sistem daripada mengekstraksi wawasan berharga dari data. Jelas, pasar sangat membutuhkan alat yang dapat menyederhanakan proses tanpa mengorbankan kinerja.
Baru -baru ini, Deepseek AI merilis smallpond, kerangka pemrosesan data ringan yang dibangun di DuckDB dan 3FS. Smallpond dirancang untuk memperluas analitik SQL yang efisien untuk DuckDB dalam proses ke dalam lingkungan terdistribusi. Dengan menggabungkan dengan 3FS, sistem file terdistribusi berkinerja tinggi yang dioptimalkan untuk jaringan SSD dan RDMA modern, smallpond memberikan solusi praktis untuk menangani set data besar, menghindari kompleksitas layanan yang sudah berjalan lama dan overhead infrastruktur yang tinggi.
Kerangka kerja kecil sederhana dan modular, kompatibel dengan versi python 3.8 hingga 3.12. Pengguna dapat dengan cepat menginstalnya melalui PIP dan dengan cepat memulai pemrosesan data. Sorotan dari kerangka kerja adalah dukungan dari partisi data manual, di mana pengguna dapat melakukan partisi sesuai dengan jumlah file, baris, atau nilai hash dari kolom tertentu. Fleksibilitas ini memungkinkan pengguna untuk menyesuaikan pemrosesan berdasarkan data dan infrastruktur mereka sendiri.
Di tingkat teknis, Smallpond mengambil keuntungan penuh dari kinerja kueri SQL asli DuckDB dan berintegrasi dengan Ray untuk memungkinkan pemrosesan paralel dari node komputasi terdistribusi. Kombinasi ini tidak hanya menyederhanakan operasi penskalaan, tetapi juga memastikan pemrosesan beban kerja yang efisien antara beberapa node. Selain itu, dengan menghindari layanan yang persisten, smallpond mengurangi overhead operasional yang sering dikaitkan dengan sistem terdistribusi.
Smallpond berkinerja baik di tolok ukur Graysort, menyortir data 110.5TIB hanya dalam 30 menit, dengan throughput rata -rata 3,66TIB per menit. Metrik kinerja ini menunjukkan bahwa smallpond memenuhi kebutuhan organisasi untuk memproses data dari terabytes ke level PB. Sebagai proyek open source, Smallpond juga menyambut partisipasi pengguna dan pengembang untuk mencapai optimasi lebih lanjut dan beradaptasi dengan beragam skenario penggunaan.
Smallpond mengambil langkah penting dalam pemrosesan data terdistribusi, memberikan para ilmuwan dan insinyur data dengan alat praktis dengan memperluas efisiensi DuckDB ke dalam lingkungan terdistribusi, menggabungkan kemampuan throughput tinggi 3FS. Apakah itu menangani kumpulan data kecil atau meluas ke level PB, smallpond adalah kerangka kerja yang efisien dan mudah diakses.
Proyek: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
Poin -Poin Kunci:
Smallpond adalah kerangka pemrosesan data ringan yang diluncurkan oleh Deepseek AI, dibangun di atas DuckDB dan 3FS.
Mendukung Python 3.8 hingga 3.12, dan pengguna dapat dengan cepat menginstal dan secara fleksibel menyesuaikan pemrosesan data.
Dalam tolok ukur Graysort, Smallpond menunjukkan kemampuannya untuk memproses terabyte data dengan kinerja yang sangat tinggi.