A medida que los conjuntos de datos continúan expandiéndose y la complejidad del procesamiento distribuido se intensifica, los flujos de trabajo de datos modernos enfrentan desafíos crecientes. Muchas organizaciones han encontrado deficiencias significativas en los sistemas de procesamiento de datos tradicionales en términos de tiempo de procesamiento, limitaciones de memoria y gestión de tareas distribuidas. En este contexto, los científicos e ingenieros de datos a menudo necesitan pasar mucho tiempo en el mantenimiento del sistema en lugar de extraer información valiosa de los datos. Obviamente, el mercado necesita urgentemente una herramienta que pueda simplificar los procesos sin sacrificar el rendimiento.
Recientemente, Deepseek AI lanzó Smallpond, un marco de procesamiento de datos ligero construido en DuckDB y 3FS. Smallpond está diseñado para extender el análisis SQL eficiente para DuckDB en proceso en entornos distribuidos. Al combinarse con 3FS, un sistema de archivos distribuido de alto rendimiento optimizado para las redes modernas de SSD y RDMA, Smallpond proporciona una solución práctica para manejar grandes conjuntos de datos, evitando la complejidad de los servicios de larga duración y la alta sobrecarga de infraestructura.
El marco de SmalPond es simple y modular, compatible con las versiones de Python 3.8 a 3.12. Los usuarios pueden instalarlo rápidamente a través de PIP e iniciar rápidamente el procesamiento de datos. Lo más destacado del marco es el soporte de la partición de datos manuales, donde los usuarios pueden particionar de acuerdo con el número de archivos, filas o valores hash de columnas específicas. Esta flexibilidad permite a los usuarios personalizar el procesamiento en función de sus propios datos e infraestructura.
A nivel técnico, Smallpond aprovecha al máximo el rendimiento de la consulta SQL nativa de DuckDB y se integra con Ray para permitir el procesamiento paralelo de nodos informáticos distribuidos. Esta combinación no solo simplifica las operaciones de escala, sino que también garantiza un procesamiento eficiente de las cargas de trabajo entre múltiples nodos. Además, evitando los servicios persistentes, Smallpond reduce la sobrecarga operativa que a menudo se asocia con sistemas distribuidos.
Smallpond funcionó bien en el punto de referencia de Graysort, clasificando los datos de 110.5TIB en poco más de 30 minutos, con un rendimiento promedio de 3.66TIB por minuto. Estas métricas de rendimiento muestran que Smallpond satisface las necesidades de la organización para procesar datos de terabytes a nivel PB. Como proyecto de código abierto, Smallpond también da la bienvenida a la participación de usuarios y desarrolladores para lograr una mayor optimización y adaptarse a diversos escenarios de uso.
Smallpond da un paso importante en el procesamiento de datos distribuidos, proporcionando a los científicos e ingenieros de datos una herramienta práctica al extender la eficiencia de DuckDB a entornos distribuidos, combinando las capacidades de alto rendimiento de 3FS. Ya sea que esté manejando pequeños conjuntos de datos o que se extienda al nivel de PB, Smallpond es un marco eficiente y fácil de acceder.
Proyecto: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
Puntos clave:
Smallpond es un marco de procesamiento de datos liviano lanzado por Deepseek AI, construido en DuckDB y 3FS.
Admite Python 3.8 a 3.12, y los usuarios pueden instalar y personalizar rápidamente el procesamiento de datos flexible.
En el punto de referencia de Graysort, Smallpond demuestra su capacidad para procesar terabytes de datos con un rendimiento ultra alto.