Compartir, cargar y transformar datos de una manera colaborativa, flexible y eficiente
Squirrel es una biblioteca de Python que permite a los equipos de ML compartir, cargar y transformar los datos de una manera colaborativa, flexible y eficiente.
Velocidad: evite la parada de datos, es decir, la costosa GPU no estará inactiva mientras espera los datos.
Costos: Primero, evite el estancamiento de la GPU y el segundo permita fragmentar y agrupe sus datos y almacene y cargue en paquetes, disminuyendo el costo de su almacenamiento en la nube de cubos de datos.
Flexibilidad: trabaje con un esquema de datos estándar flexible que se adapta a cualquier configuración, incluidos los datos multimodales.
Colaboración: haga que sea más fácil compartir datos y código entre equipos y proyectos en un modelo de autoservicio.
Transmitir datos desde cualquier lugar a su modelo de aprendizaje automático tan fácil como:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)Echa un vistazo a nuestro cuaderno de tutorial completo. Si tiene alguna pregunta o desea contribuir, únase a nuestra comunidad Slack.
Puede instalar squirrel-core por
pip install squirrel-corePara instalar todas las características y funcionalidades:
pip install " squirrel-core[all] "O seleccione las dependencias que necesita:
pip install " squirrel-core[gcs,torch] "Consulte la sección de instalación de la documentación para obtener una lista completa de dependencias compatibles.
Lea nuestra documentación en Readthedocs
Squirrel-Datasets-Core es un paquete de Python que lo acompaña que hace tres cosas.
¡Squirrel es de código abierto y las contribuciones comunitarias son bienvenidas!
Consulte la Guía de contribución para aprender a involucrarse.
Somos Merantix Momentum, un equipo de ~ 30 ingenieros de aprendizaje automático, desarrollando soluciones de aprendizaje automático para la industria y la investigación. Cada proyecto viene con sus propios desafíos, tipos de datos y aprendizajes, pero un problema que siempre enfrentamos fue la carga, transformación y compartido de datos escalables. Estábamos buscando una solución que nos permita cargar los datos de una manera rápida y rentable, mientras mantiene la flexibilidad de trabajar con cualquier posible conjunto de datos e integrar con cualquier API. Es por eso que construimos ardilla, ¡y esperamos que lo encuentres tan útil como nosotros! Por cierto, ¡estamos contratando!
Si usa Squirrel en su investigación, cíquela usando:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}