Делиться, загружать и преобразовать данные совместным, гибким и эффективным способом
Squirrel - это библиотека Python, которая позволяет командам ML делиться, загружать и преобразовать данные совместным, гибким и эффективным способом.
Скорость: избегайте стойла данных, т.е. дорогой графический процессор не будет простальным простоя в ожидании данных.
Затраты: Во -первых, избегайте затяжения графических процессоров, а второе - это расколоть и кластер свои данные, а также хранить и загружать их в пачки, снижая стоимость облачного хранилища вашего ковша.
Гибкость: работайте с гибкой стандартной схемой данных, которая адаптируется к любым настройкам, включая мультимодальные данные.
Сотрудничество: облегчить обмен данными и кодом между командами и проектами в модели самообслуживания.
Потоковые данные из любого места в модель машинного обучения так же просто, как:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)Проверьте нашу учебную книжку с полным началом работы. Если у вас есть какие -либо вопросы или вы хотите внести свой вклад, присоединяйтесь к нашему сообществу Slack.
Вы можете установить squirrel-core
pip install squirrel-coreЧтобы установить все функции и функции:
pip install " squirrel-core[all] "Или выберите необходимые вам зависимости:
pip install " squirrel-core[gcs,torch] "Пожалуйста, обратитесь к разделу установки документации для полного списка поддерживаемых зависимостей.
Прочитайте нашу документацию в Readthedocs
Squirrel-Datasets-Core-это сопровождающий пакет Python, который делает три вещи.
Squirrel - это открытый исходный код, и вклад сообщества приветствуются!
Ознакомьтесь с руководством взносов, чтобы узнать, как принять участие.
Мы являемся Merantix Momentum, командой из ~ 30 инженеров по машинному обучению, разработка решений для машинного обучения для промышленности и исследований. Каждый проект поставляется с собственными проблемами, типами данных и знаниями, но одной из проблем, с которой мы всегда сталкивались, была масштабируемая загрузка данных, преобразование и обмен. Мы искали решение, которое позволило бы нам загружать данные быстро и экономически эффективным образом, сохраняя при этом гибкость для работы с любым возможным набором данных и интегрируется с любым API. Вот почему мы строим белку - и мы надеемся, что вы найдете ее таким же полезным, как и мы! Кстати, мы нанимаем!
Если вы используете белку в своем исследовании, пожалуйста, цитируйте это:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}