ในขณะที่ชุดข้อมูลยังคงขยายตัวและความซับซ้อนของการประมวลผลแบบกระจายทวีความรุนแรงมากขึ้นเวิร์กโฟลว์ข้อมูลที่ทันสมัยต้องเผชิญกับความท้าทายที่เพิ่มขึ้น หลายองค์กรพบข้อบกพร่องที่สำคัญในระบบประมวลผลข้อมูลแบบดั้งเดิมในแง่ของเวลาการประมวลผลข้อ จำกัด ของหน่วยความจำและการจัดการงานแบบกระจาย ในบริบทนี้นักวิทยาศาสตร์ด้านข้อมูลและวิศวกรมักจะต้องใช้เวลามากในการบำรุงรักษาระบบแทนที่จะสกัดข้อมูลเชิงลึกที่มีค่าจากข้อมูล เห็นได้ชัดว่าตลาดต้องการเครื่องมือที่สามารถทำให้กระบวนการง่ายขึ้นโดยไม่ต้องเสียสละประสิทธิภาพ
เมื่อเร็ว ๆ นี้ Deepseek AI ได้เปิดตัว Smallpond ซึ่งเป็นกรอบการประมวลผลข้อมูลที่มีน้ำหนักเบาที่สร้างขึ้นบน Duckdb และ 3Fs Smallpond ได้รับการออกแบบมาเพื่อขยายการวิเคราะห์ SQL ที่มีประสิทธิภาพสำหรับ DuckDB ในกระบวนการสู่สภาพแวดล้อมแบบกระจาย ด้วยการรวมกับ 3FS ระบบไฟล์แบบกระจายประสิทธิภาพสูงที่ได้รับการปรับให้เหมาะสมสำหรับเครือข่าย SSD และ RDMA ที่ทันสมัย Smallpond เป็นวิธีแก้ปัญหาที่ใช้งานได้จริงสำหรับการจัดการชุดข้อมูลขนาดใหญ่หลีกเลี่ยงความซับซ้อนของบริการระยะยาวและโครงสร้างพื้นฐานที่สูง
Smallpond Framework นั้นง่ายและเป็นโมดูลเข้ากันได้กับรุ่น Python 3.8 ถึง 3.12 ผู้ใช้สามารถติดตั้งได้อย่างรวดเร็วผ่าน PIP และเริ่มการประมวลผลข้อมูลอย่างรวดเร็ว ไฮไลต์ของเฟรมเวิร์กคือการสนับสนุนการแบ่งพาร์ติชันข้อมูลด้วยตนเองซึ่งผู้ใช้สามารถแบ่งพาร์ติชันตามจำนวนไฟล์แถวหรือค่าแฮชของคอลัมน์เฉพาะ ความยืดหยุ่นนี้ช่วยให้ผู้ใช้สามารถปรับแต่งการประมวลผลตามข้อมูลและโครงสร้างพื้นฐานของตนเอง
ในระดับเทคนิค Smallpond ใช้ประโยชน์อย่างเต็มที่จากประสิทธิภาพการสืบค้น SQL แบบดั้งเดิมของ Duckdb และรวมเข้ากับ Ray เพื่อเปิดใช้งานการประมวลผลแบบขนานของโหนดการคำนวณแบบกระจาย ชุดค่าผสมนี้ไม่เพียง แต่ทำให้การดำเนินการปรับขนาดง่ายขึ้นเท่านั้น แต่ยังช่วยให้มั่นใจได้ว่าการประมวลผลปริมาณงานที่มีประสิทธิภาพระหว่างหลายโหนด นอกจากนี้โดยการหลีกเลี่ยงการให้บริการแบบถาวร Smallpond จะลดค่าใช้จ่ายในการปฏิบัติงานที่มักเกี่ยวข้องกับระบบกระจาย
Smallpond ทำงานได้ดีในเกณฑ์มาตรฐาน Graysort เรียงลำดับข้อมูล 110.5tib ในเวลาเพียง 30 นาทีโดยมีปริมาณงานเฉลี่ย 3.66tib ต่อนาที ตัวชี้วัดประสิทธิภาพเหล่านี้แสดงให้เห็นว่า Smallpond ตรงกับความต้องการขององค์กรสำหรับการประมวลผลข้อมูลจาก Terabytes ถึงระดับ PB ในฐานะที่เป็นโครงการโอเพนซอร์ส Smallpond ยังยินดีต้อนรับการมีส่วนร่วมของผู้ใช้และนักพัฒนาเพื่อให้บรรลุการเพิ่มประสิทธิภาพเพิ่มเติมและปรับให้เข้ากับสถานการณ์การใช้งานที่หลากหลาย
Smallpond ใช้ขั้นตอนสำคัญในการประมวลผลข้อมูลแบบกระจายโดยให้เครื่องมือและวิศวกรด้วยเครื่องมือที่ใช้งานได้จริงโดยการขยายประสิทธิภาพของ Duckdb ไปสู่สภาพแวดล้อมแบบกระจายรวมความสามารถในการรับส่งข้อมูลสูงของ 3Fs ไม่ว่าจะเป็นการจัดการชุดข้อมูลขนาดเล็กหรือขยายไปถึงระดับ PB Smallpond เป็นกรอบการทำงานที่มีประสิทธิภาพและง่ายต่อการเข้าถึง
โครงการ: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
ประเด็นสำคัญ:
Smallpond เป็นกรอบการประมวลผลข้อมูลที่มีน้ำหนักเบาที่เปิดตัวโดย Deepseek AI ที่สร้างขึ้นบน Duckdb และ 3Fs
รองรับ Python 3.8 ถึง 3.12 และผู้ใช้สามารถติดตั้งและปรับแต่งการประมวลผลข้อมูลได้อย่างรวดเร็ว
ในเกณฑ์มาตรฐาน Graysort, Smallpond แสดงให้เห็นถึงความสามารถในการประมวลผลข้อมูล terabytes ที่มีประสิทธิภาพสูงเป็นพิเศษ