Compartilhe, carregue e transforme dados de uma maneira colaborativa, flexível e eficiente
O Squirrel é uma biblioteca Python que permite que as equipes de ML compartilhem, carreguem e transformam dados de maneira colaborativa, flexível e eficiente.
Velocidade: Evite a barraca de dados, ou seja, a GPU cara não ficará ociosa enquanto aguarda os dados.
CUSTOS: Primeiro, evite a parada da GPU e, em seguida, permita o Shard e agrupar seus dados e armazenar e carregá -los em feixes, diminuindo o custo do seu armazenamento em nuvem de bucket de dados.
Flexibilidade: Trabalhe com um esquema de dados padrão flexível que seja adaptável a qualquer configuração, incluindo dados multimodais.
Colaboração: facilite o compartilhamento de dados e codificações entre equipes e projetos em um modelo de autoatendimento.
Transmita dados de qualquer lugar para o seu modelo de aprendizado de máquina tão fácil quanto:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)Confira nosso caderno de tutorial de início completo. Se você tiver alguma dúvida ou quiser contribuir, junte -se à nossa comunidade Slack.
Você pode instalar squirrel-core por
pip install squirrel-corePara instalar todos os recursos e funcionalidades:
pip install " squirrel-core[all] "Ou selecione as dependências necessárias:
pip install " squirrel-core[gcs,torch] "Consulte a seção de instalação da documentação para obter uma lista completa de dependências suportadas.
Leia nossa documentação no ReadThedocs
O Squirrel-Datasets-Core é um pacote Python que faz três coisas.
O esquilo é de código aberto e as contribuições da comunidade são bem -vindas!
Confira o guia de contribuição para aprender a se envolver.
Somos MEANTIX MOMEMUM, uma equipe de ~ 30 engenheiros de aprendizado de máquina, desenvolvendo soluções de aprendizado de máquina para indústria e pesquisa. Cada projeto vem com seus próprios desafios, tipos de dados e aprendizados, mas um problema que sempre enfrentamos foi o carregamento, transformando e compartilhamento de dados escaláveis. Estávamos procurando uma solução que nos permitisse carregar os dados de uma maneira rápida e econômica, mantendo a flexibilidade de trabalhar com qualquer conjunto de dados possível e integrar-se a qualquer API. É por isso que construímos Squirrel - e esperamos que você ache tão útil quanto nós! A propósito, estamos contratando!
Se você usar o esquilo em sua pesquisa, cite -o usando:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}