Partager, charger et transformer les données d'une manière collaborative, flexible et efficace
Squirrel est une bibliothèque Python qui permet aux équipes ML de partager, de charger et de transformer des données de manière collaborative, flexible et efficace.
Vitesse: Évitez le stand de données, c'est-à-dire que le GPU coûteux ne sera pas inactif en attendant les données.
Coûts: Tout d'abord, évitez le stalling GPU et permettez à la fragment et à la regroupement de vos données et à les stocker et à les charger en bundles, en diminuant le coût de votre stockage de nuages de seau de données.
Flexibilité: Travaillez avec un schéma de données standard flexible qui est adaptable à tout paramètre, y compris les données multimodales.
Collaboration: facilitez le partage des données et du code entre les équipes et les projets dans un modèle en libre-service.
Diffusez les données de n'importe où à votre modèle d'apprentissage automatique aussi simple que:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)Consultez notre cahier de didacticiel complet. Si vous avez des questions ou souhaitez contribuer, rejoignez notre communauté Slack.
Vous pouvez installer squirrel-core par
pip install squirrel-corePour installer toutes les fonctionnalités et fonctionnalités:
pip install " squirrel-core[all] "Ou sélectionnez les dépendances dont vous avez besoin:
pip install " squirrel-core[gcs,torch] "Veuillez vous référer à la section d'installation de la documentation pour une liste complète des dépendances prises en charge.
Lisez notre documentation sur ReadTheDocs
Squirrel-Dataset-Core est un package Python qui accompagne trois choses.
Squirrel est l'open source et les contributions communautaires sont les bienvenues!
Consultez le guide de contribution pour apprendre à vous impliquer.
Nous sommes Merantix Momentum, une équipe de ~ 30 ingénieurs d'apprentissage automatique, développant des solutions d'apprentissage automatique pour l'industrie et la recherche. Chaque projet est livré avec ses propres défis, types de données et apprentissages, mais un problème que nous avons toujours rencontré était le chargement, la transformation et le partage des données évolutives. Nous recherchions une solution qui nous permettrait de charger les données de manière rapide et rentable, tout en gardant la flexibilité pour travailler avec n'importe quel ensemble de données possible et intégrer à n'importe quelle API. C'est pourquoi nous construisons l'écureuil - et nous espérons que vous le trouverez aussi utile que nous! Au fait, nous embauchons!
Si vous utilisez l'écureuil dans vos recherches, veuillez le citer en utilisant:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}