À medida que os conjuntos de dados continuam a se expandir e a complexidade do processamento distribuído se intensifica, os fluxos de trabalho de dados modernos enfrentam desafios crescentes. Muitas organizações encontraram deficiências significativas nos sistemas tradicionais de processamento de dados em termos de tempo de processamento, limitações de memória e gerenciamento de tarefas distribuídas. Nesse contexto, cientistas e engenheiros de dados geralmente precisam gastar muito tempo na manutenção do sistema, em vez de extrair informações valiosas dos dados. Obviamente, o mercado precisa urgentemente de uma ferramenta que possa simplificar os processos sem sacrificar o desempenho.
Recentemente, a Deepseek AI lançou a Smallpond, uma estrutura leve de processamento de dados construída no DuckDB e 3FS. A Smallpond foi projetada para estender a análise SQL eficiente para o DuckDB em processo em ambientes distribuídos. Ao combinar com 3Fs, um sistema de arquivos distribuído de alto desempenho otimizado para as modernas redes SSD e RDMA, a Smallpond fornece uma solução prática para lidar com grandes conjuntos de dados, evitando a complexidade dos serviços de longa execução e a alta infraestrutura.
A estrutura de pequenas pessoas é simples e modular, compatível com as versões Python 3.8 a 3.12. Os usuários podem instalá -lo rapidamente através do PIP e iniciar rapidamente o processamento de dados. Um destaque da estrutura é o suporte à partição manual de dados, onde os usuários podem particionar de acordo com o número de arquivos, linhas ou valores de hash de colunas específicas. Essa flexibilidade permite que os usuários personalizem o processamento com base em seus próprios dados e infraestrutura.
No nível técnico, a Smallpond aproveita ao máximo o desempenho da consulta SQL nativa do DuckDB e se integra ao Ray para permitir o processamento paralelo de nós de computação distribuída. Essa combinação não apenas simplifica as operações de escala, mas também garante processamento eficiente de cargas de trabalho entre vários nós. Além disso, ao evitar serviços persistentes, a Smallpond reduz a sobrecarga operacional que é frequentemente associada a sistemas distribuídos.
A Smallpond teve um bom desempenho na referência Graysort, classificando os dados de 110.5tib em pouco mais de 30 minutos, com uma taxa de transferência média de 3,66tib por minuto. Essas métricas de desempenho mostram que a Smallpond atende às necessidades da organização de processamento de dados de terabytes para o nível de PB. Como um projeto de código aberto, a Smallpond também recebe a participação de usuários e desenvolvedores para obter mais otimização e se adaptar a diversos cenários de uso.
A Smallpond dá uma etapa importante no processamento de dados distribuído, fornecendo aos cientistas e engenheiros de dados uma ferramenta prática, estendendo a eficiência do DuckDB em ambientes distribuídos, combinando os recursos de alta taxa de transferência do 3FS. Seja lidando com pequenos conjuntos de dados ou se estendendo ao nível do PB, a Smallpond é uma estrutura eficiente e fácil de acessar.
Projeto: https://github.com/deepseek-ai/smallpond?tab=readme-ov-file
Pontos -chave:
Smallpond é uma estrutura leve de processamento de dados lançada pela Deepseek AI, construída no DuckDB e 3FS.
Suporta o Python 3.8 a 3.12, e os usuários podem instalar rapidamente e personalizar com flexibilidade o processamento de dados.
Na referência de Graysort, a Smallpond demonstra sua capacidade de processar terabytes de dados com desempenho ultra-alto.