Поскольку наборы данных продолжают расширяться, а сложность распределенной обработки усиливается, современные рабочие процессы данных сталкиваются с растущими проблемами. Многие организации обнаружили значительные недостатки в традиционных системах обработки данных с точки зрения времени обработки, ограничений памяти и управления распределенными задачами. В этом контексте ученым и инженерам данных часто приходится тратить много времени на обслуживание системы, а не извлекать ценную информацию из данных. Очевидно, что рынок срочно нуждается в инструменте, который может упростить процессы, не жертвуя производительностью.
Недавно DeepSeek AI выпустил SmallPond, легкую структуру обработки данных, построенная на DuckDB и 3FS. SmallPond предназначен для расширения эффективной аналитики SQL для DuckDB в процессе в распределенные среды. Объединяя 3FS, высокопроизводительная распределенная файловая система, оптимизированная для современных сетей SSD и RDMA, SmallPond предоставляет практическое решение для обработки больших наборов данных, избегая сложности длительных услуг и высоких накладных расходов на инфраструктуру.
Маленькая структура является простым и модульным, совместимым с версиями Python от 3,8 до 3,12. Пользователи могут быстро установить его через PIP и быстро запустить обработку данных. Основным выделением структуры является поддержка ручного разделения данных, где пользователи могут разделить в соответствии с количеством файлов, строк или хэш значений конкретных столбцов. Эта гибкость позволяет пользователям настраивать обработку на основе своих собственных данных и инфраструктуры.
На техническом уровне SmallPond в полной мере использует производительность SQL -запроса DuckDB и интегрируется с Ray, чтобы обеспечить параллельную обработку распределенных вычислительных узлов. Эта комбинация не только упрощает операции масштабирования, но также обеспечивает эффективную обработку рабочих нагрузок между несколькими узлами. Кроме того, избегая постоянных услуг, SmallPond уменьшает операционные накладные расходы, которые часто связаны с распределенными системами.
SmallPond хорошо показал в эталоне Grayort, сортируя данные 110,5TIB всего за 30 минут, со средней пропускной способностью 3,66tib в минуту. Эти показатели производительности показывают, что SmallPond отвечает потребностям организации в обработке данных из терабайт до уровня PB. Как проект с открытым исходным кодом, SmallPond также приветствует участие пользователей и разработчиков для достижения дальнейшей оптимизации и адаптироваться к разнообразным сценариям использования.
SmallPond делает важный шаг в распределенной обработке данных, предоставляя ученым и инженерам, предоставляющим ученые и инженеры практический инструмент, расширяя эффективность DuckDB в распределенные среды, объединяя высокие возможности пропускной способности 3FS. Независимо от того, обрабатывает ли он небольшие наборы данных или простирается до уровня PB, SmallPond является эффективной и простой для доступа.
Проект: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
Ключевые моменты:
SmallPond - это легкая структура обработки данных, запущенная DeepSeek AI, построенная на DuckDB и 3FS.
Поддерживает Python от 3.8 до 3.12, и пользователи могут быстро устанавливать и гибко настроить обработку данных.
В эталоне Graysort SmallPond демонстрирует свою способность обрабатывать терабайты данных с сверхвысокой производительностью.