squirrel core
v0.20.2
以协作,灵活且高效的方式共享,加载和转换数据
Squirrel是一个Python库,使ML团队能够以协作,灵活和高效的方式共享,加载和转换数据。
速度:避免数据失速,即昂贵的GPU在等待数据时不会闲置。
费用:首先,避免GPU停滞不前,第二允许将数据分解并集中数据,并将其存储和加载成捆,从而降低了数据存储库云存储的成本。
灵活性:使用灵活的标准数据方案,该方案适用于任何设置,包括多模式数据。
协作:使在自助服务模型中在团队和项目之间共享数据和代码变得更加容易。
将数据从任何地方传输到机器学习模型,就像以下内容一样容易:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)查看我们的完整入门教程笔记本。如果您有任何疑问或想做出贡献,请加入我们的懈怠社区。
您可以squirrel-core
pip install squirrel-core安装所有功能:
pip install " squirrel-core[all] "或选择您需要的依赖项:
pip install " squirrel-core[gcs,torch] "请参阅文档的安装部分,以获取支持的依赖项的完整列表。
在ReadThedocs阅读我们的文档
Squirrel-Datasets-core是一个随附的Python软件包,可以做三件事。
松鼠是开源的,欢迎社区贡献!
查看学习如何参与的贡献指南。
我们是Merantix Momentum,这是一个约30个机器学习工程师的团队,开发了用于行业和研究的机器学习解决方案。每个项目都有其自身的挑战,数据类型和学习,但是我们总是遇到的一个问题是可扩展的数据加载,转换和共享。我们正在寻找一种解决方案,该解决方案将使我们能够以快速且具有成本效益的方式加载数据,同时保持与任何可能的数据集一起工作并与任何API集成的灵活性。这就是为什么我们建造松鼠 - 希望您会发现它和我们一样有用!顺便说一句,我们正在招聘!
如果您在研究中使用松鼠,请使用:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}