데이터 세트가 계속 확장되고 분산 처리의 복잡성이 강화됨에 따라 현대 데이터 워크 플로우는 점점 더 많은 문제에 직면 해 있습니다. 많은 조직에서 처리 시간, 메모리 제한 및 분산 작업 관리 측면에서 전통적인 데이터 처리 시스템에서 상당한 단점이 발견되었습니다. 이러한 맥락에서, 데이터 과학자와 엔지니어는 종종 데이터에서 귀중한 통찰력을 추출하는 대신 시스템 유지 관리에 많은 시간을 소비해야합니다. 분명히 시장에는 성능을 희생하지 않고 프로세스를 단순화 할 수있는 도구가 시급히 필요합니다.
최근 DeepSeek AI는 DuckDB 및 3FS에 구축 된 가벼운 데이터 처리 프레임 워크 인 SmallPond를 출시했습니다. SmallPond는 프로세스에서 DUPTBB에 대한 효율적인 SQL 분석을 분산 환경으로 확장하도록 설계되었습니다. 3FS와 결합하여 최신 SSD 및 RDMA 네트워크에 최적화 된 고성능 분산 파일 시스템을 통해 Smallpond는 장기 실행 서비스의 복잡성과 높은 인프라 오버 헤드를 피하고 큰 데이터 세트를 처리하는 실용적인 솔루션을 제공합니다.
Smallpond 프레임 워크는 단순하고 모듈 식이며 Python 버전 3.8 ~ 3.12와 호환됩니다. 사용자는 PIP를 통해 신속하게 설치하고 데이터 처리를 신속하게 시작할 수 있습니다. 프레임 워크의 하이라이트는 사용자가 특정 열의 파일, 행 또는 해시 값에 따라 분할 할 수있는 수동 데이터 파티셔닝의 지원입니다. 이러한 유연성을 통해 사용자는 자체 데이터 및 인프라에 따라 처리를 사용자 정의 할 수 있습니다.
기술 수준에서 Smallpond는 DUPTB의 기본 SQL 쿼리 성능을 최대한 활용하고 Ray와 통합하여 분산 컴퓨팅 노드의 병렬 처리를 가능하게합니다. 이 조합은 스케일링 작업을 단순화 할뿐만 아니라 여러 노드 간의 워크로드 처리를 효율적으로 보장합니다. 또한, 지속적인 서비스를 피함으로써 Smallpond는 종종 분산 시스템과 관련된 운영 오버 헤드를 줄입니다.
Smallpond는 Graysort 벤치 마크에서 잘 수행되어 30 분 만에 110.5tib 데이터를 분당 3.66tib로 정렬했습니다. 이러한 성능 지표는 Smallpond가 테라 바이트에서 PB 수준으로 데이터를 처리하려는 조직의 요구를 충족 시킨다는 것을 보여줍니다. Smallpond는 오픈 소스 프로젝트로서 사용자와 개발자의 참여를 환영하여 추가 최적화를 달성하고 다양한 사용 시나리오에 적응합니다.
Smallpond는 분산 데이터 처리의 중요한 단계를 수행하여 DUPDB의 효율성을 분산 환경으로 확장하여 3FS의 높은 처리량 기능을 결합하여 데이터 과학자와 엔지니어에게 실용적인 도구를 제공합니다. 작은 데이터 세트를 처리하든 PB 수준으로 확장하든 Smallpond는 효율적이고 액세스하기 쉬운 프레임 워크입니다.
프로젝트 : https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
핵심 사항 :
Smallpond는 DuckDB 및 3FS에 구축 된 DeepSeek AI가 시작한 가벼운 데이터 처리 프레임 워크입니다.
Python 3.8 ~ 3.12를 지원하며 사용자는 데이터 처리를 신속하게 설치하고 유연하게 사용자 정의 할 수 있습니다.
Graysort 벤치 마크에서 Smallpond는 매우 높은 성능으로 테라 바이트의 데이터를 처리하는 능력을 보여줍니다.