Alors que les ensembles de données continuent de se développer et que la complexité du traitement distribué s'intensifie, les flux de travail de données modernes sont confrontés à des défis croissants. De nombreuses organisations ont trouvé des lacunes importantes dans les systèmes traditionnels de traitement des données en termes de temps de traitement, de limitations de mémoire et de gestion des tâches distribuées. Dans ce contexte, les scientifiques des données et les ingénieurs ont souvent besoin de passer beaucoup de temps à la maintenance du système plutôt que d'extraire des informations précieuses des données. De toute évidence, le marché a besoin d'un outil qui peut à la fois simplifier les processus sans sacrifier les performances.
Récemment, Deepseek AI a publié SmallPond, un cadre de traitement des données léger construit sur DuckDB et 3FS. SallPond est conçu pour étendre les analyses SQL efficaces pour DuckDB en cours dans des environnements distribués. En combinant avec 3FS, un système de fichiers distribué haute performance optimisé pour les réseaux SSD et RDMA modernes, SmallPond fournit une solution pratique pour gérer de grands ensembles de données, en évitant la complexité des services de longue durée et les frais généraux d'infrastructure élevés.
Le framework à petits étangs est simple et modulaire, compatible avec les versions Python 3.8 à 3.12. Les utilisateurs peuvent rapidement l'installer via PIP et démarrer rapidement le traitement des données. Un point culminant du cadre est la prise en charge du partitionnement manuel des données, où les utilisateurs peuvent partitionner en fonction du nombre de fichiers, de lignes ou de valeurs de hachage de colonnes spécifiques. Cette flexibilité permet aux utilisateurs de personnaliser le traitement en fonction de leurs propres données et infrastructures.
Au niveau technique, SmallPond tire pleinement parti des performances de requête SQL natives de DuckDB et s'intègre à Ray pour permettre le traitement parallèle des nœuds informatiques distribués. Cette combinaison simplifie non seulement les opérations de mise à l'échelle, mais assure également un traitement efficace des charges de travail entre plusieurs nœuds. De plus, en évitant les services persistants, la petite étang réduit les frais généraux opérationnels qui sont souvent associés aux systèmes distribués.
SmallPond a bien fonctionné dans la référence GraySort, triant les données de 110,5tibs en un peu plus de 30 minutes, avec un débit moyen de 3,66tibs par minute. Ces mesures de performance montrent que Sallpond répond aux besoins de l'organisation pour traiter les données des téraoctets au niveau PB. En tant que projet open source, SallPond accueille également la participation des utilisateurs et des développeurs pour obtenir une optimisation supplémentaire et s'adapter à divers scénarios d'utilisation.
SmallPond fait une étape importante dans le traitement des données distribué, fournissant aux scientifiques des données et aux ingénieurs un outil pratique en étendant l'efficacité de DuckDB dans des environnements distribués, combinant les capacités de débit élevé de 3FS. Qu'il s'agisse de gérer de petits ensembles de données ou de s'étendre au niveau PB, la petite étang est un framework efficace et facile à accès.
Projet: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
Points clés:
SmallPond est un cadre de traitement des données léger lancé par Deepseek AI, construit sur DuckDB et 3FS.
Prend en charge Python 3.8 à 3.12, et les utilisateurs peuvent rapidement installer et personnaliser rapidement le traitement des données.
Dans la référence GraySort, SallPond démontre sa capacité à traiter des terroctets de données avec des performances ultra-élevées.