Wenn die Datensätze weiter erweitert und die Komplexität der verteilten Verarbeitung verstärkt, stehen moderne Datenworkflows mit zunehmenden Herausforderungen. Viele Unternehmen haben in Bezug auf die Verarbeitungszeit, die Speicherbeschränkungen und die verteilte Aufgabenverwaltung erhebliche Mängel in herkömmlichen Datenverarbeitungssystemen gefunden. In diesem Zusammenhang müssen Datenwissenschaftler und Ingenieure häufig viel Zeit für die Systemwartung verbringen, anstatt wertvolle Erkenntnisse aus den Daten zu extrahieren. Offensichtlich benötigt der Markt dringend ein Tool, das sowohl Prozesse ohne die Leistung beeinträchtigen kann.
Kürzlich veröffentlichte Deepseek AI Smallpond, ein leichtes Datenverarbeitungsrahmen, das auf Duckdb und 3Fs basiert. Smallpond wurde entwickelt, um effiziente SQL -Analysen für Duckdb in verteilten Umgebungen zu erweitern. Durch die Kombination mit 3FS, einem für moderne SSD- und RDMA-Netzwerke optimierten Hochleistungsverteilungssystem, bietet Smallpond eine praktische Lösung für die Umstellung großer Datensätze, wodurch die Komplexität langlebiger Dienste und die Hochinfrastrukturaufwand vermieden werden.
Der Skainpond -Framework ist einfach und modular, kompatibel mit Python -Versionen 3.8 bis 3.12. Benutzer können es schnell über PIP installieren und die Datenverarbeitung schnell starten. Ein Highlight des Frameworks ist die Unterstützung der manuellen Datenpartitionierung, bei der Benutzer die Anzahl der Dateien, Zeilen oder Hash -Werte bestimmter Spalten partitionieren können. Mit dieser Flexibilität können Benutzer die Verarbeitung basierend auf ihren eigenen Daten und Infrastruktur anpassen.
Auf technischer Ebene nutzt Smallpond die native SQL -Abfrageleistung von Duckdb voll aus und integriert sich in Ray, um die parallele Verarbeitung verteilter Computerknoten zu ermöglichen. Diese Kombination vereinfacht nicht nur die Skalierungsvorgänge, sondern gewährleistet auch eine effiziente Verarbeitung von Workloads zwischen mehreren Knoten. Durch die Vermeidung anhaltender Dienste reduziert Smallpond den operativen Overhead, der häufig mit verteilten Systemen verbunden ist.
Smallpond hat im Graysort -Benchmark eine gute Leistung erzielt und die 110,5 -Tib -Daten in etwas mehr als 30 Minuten sortiert, wobei ein durchschnittlicher Durchsatz von 3,66 Tib pro Minute war. Diese Leistungsmetriken zeigen, dass Smallpond die Anforderungen der Organisation an die Verarbeitung von Daten von Terabyte bis zur PB -Ebene erfüllt. Als Open -Source -Projekt begrüßt Smallpond auch die Teilnahme von Benutzern und Entwicklern, um eine weitere Optimierung zu erzielen und sich an verschiedene Nutzungsszenarien anzupassen.
Smallpond macht einen wichtigen Schritt in der verteilten Datenverarbeitung und bietet Datenwissenschaftlern und Ingenieuren ein praktisches Instrument, indem die Effizienz von Duckdb in verteilte Umgebungen ausgeweitet wird und die Funktionen der hohen Durchsatz von 3Fs kombiniert. Egal, ob es sich um kleine Datensätze handelt oder sich auf die PB-Ebene erstreckt, Smallpond ist ein effizientes und leicht zugängliches Framework.
Projekt: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
Schlüsselpunkte:
Smallpond ist ein leichter Datenverarbeitungsframework, das von Deepseek AI gestartet wurde und auf Duckdb und 3Fs basiert.
Unterstützt Python 3.8 bis 3.12 und Benutzer können die Datenverarbeitung schnell installieren und flexibel anpassen.
In der Graysort-Benchmark demonstriert Smallpond seine Fähigkeit, Terabyte von Daten mit ultrahoher Leistung zu verarbeiten.