مع استمرار توسيع مجموعات البيانات وتكثيف تعقيد المعالجة الموزعة ، تواجه مهام سير عمل البيانات الحديثة تحديات متزايدة. وجدت العديد من المؤسسات أوجه قصور كبيرة في أنظمة معالجة البيانات التقليدية من حيث وقت المعالجة ، وقيود الذاكرة ، وإدارة المهام الموزعة. في هذا السياق ، غالبًا ما يحتاج علماء البيانات والمهندسين إلى قضاء الكثير من الوقت في صيانة النظام بدلاً من استخراج رؤى قيمة من البيانات. من الواضح أن السوق يحتاج إلى أداة يمكن أن تبسيط العمليات دون التضحية بالأداء.
في الآونة الأخيرة ، أصدر Deepseek AI Smallpond ، وهو إطار معالجة البيانات الخفيفة الوزن المبني على DuckDB و 3FS. تم تصميم Smallpond لتوسيع تحليلات SQL الفعالة لـ DuckDB أثناء عملية البيئات الموزعة. من خلال الاندماج مع 3FS ، نظام ملفات موزع عالي الأداء تم تحسينه لشبكات SSD و RDMA الحديثة ، يوفر Smallpond حلاً عمليًا للتعامل مع مجموعات البيانات الكبيرة ، وتجنب تعقيد الخدمات الطويلة المدى والبنية التحتية العالية.
إطار العمل الجانبي بسيط ومعيار ، متوافق مع إصدارات Python من 3.8 إلى 3.12. يمكن للمستخدمين تثبيته بسرعة من خلال PIP وبدء معالجة البيانات بسرعة. من أبرز ما في الإطار دعم تقسيم البيانات اليدوية ، حيث يمكن للمستخدمين التقسيم وفقًا لعدد الملفات أو الصفوف أو قيم التجزئة لأعمدة محددة. تتيح هذه المرونة للمستخدمين تخصيص المعالجة بناءً على بياناتهم والبنية التحتية الخاصة بهم.
على المستوى الفني ، يستفيد Smallpond بالكامل من أداء استعلام SQL الأصلي من DuckDB ويتكامل مع RAY لتمكين المعالجة الموازية لعقد الحوسبة الموزعة. هذا المزيج لا يبسط عمليات التحجيم فحسب ، بل يضمن أيضًا معالجة فعالة لأعباء العمل بين العقد المتعددة. بالإضافة إلى ذلك ، من خلال تجنب الخدمات المستمرة ، يقلل Smallpond النفقات العامة التشغيلية التي ترتبط غالبًا بالأنظمة الموزعة.
كان أداء Smallpond جيدًا في معيار Graysort ، حيث قام بفرز بيانات 110.5TIB في ما يزيد قليلاً عن 30 دقيقة ، مع متوسط إنتاجية 3.66TIB في الدقيقة. تُظهر مقاييس الأداء هذه أن Smallpond تلبي احتياجات المؤسسة لمعالجة البيانات من terabytes إلى مستوى PB. كمشروع مفتوح المصدر ، يرحب Smallpond أيضًا بمشاركة المستخدمين والمطورين لتحقيق مزيد من التحسين والتكيف مع سيناريوهات الاستخدام المتنوعة.
يأخذ Smallpond خطوة مهمة في معالجة البيانات الموزعة ، مما يوفر لعلماء البيانات والمهندسين أداة عملية عن طريق توسيع كفاءة DuckDB إلى بيئات موزعة ، مع الجمع بين إمكانيات الإنتاجية العالية لـ 3FS. سواء كان ذلك يتعامل مع مجموعات البيانات الصغيرة أو تمتد إلى مستوى PB ، فإن Smallpond هو إطار فعال وسهل الوصول إليه.
المشروع: https://github.com/deepseek-ai/smallpond؟tab=Readme-ov-file
النقاط الرئيسية:
Smallpond هو إطار معالجة البيانات خفيف الوزن الذي أطلقه Deepseek AI ، مبني على DuckDB و 3FS.
يدعم Python من 3.8 إلى 3.12 ، ويمكن للمستخدمين تثبيت وتخصيص معالجة البيانات بسرعة وتخصيصها بمرونة.
في معيار Graysort ، يوضح Smallpond قدرته على معالجة terabytes من البيانات بأداء عالي للغاية.