squirrel core
v0.20.2
以協作,靈活且高效的方式共享,加載和轉換數據
Squirrel是一個Python庫,使ML團隊能夠以協作,靈活和高效的方式共享,加載和轉換數據。
速度:避免數據失速,即昂貴的GPU在等待數據時不會閒置。
費用:首先,避免GPU停滯不前,第二允許將數據分解並集中數據,並將其存儲和加載成捆,從而降低了數據存儲庫雲存儲的成本。
靈活性:使用靈活的標準數據方案,該方案適用於任何設置,包括多模式數據。
協作:使在自助服務模型中在團隊和項目之間共享數據和代碼變得更加容易。
將數據從任何地方傳輸到機器學習模型,就像以下內容一樣容易:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)查看我們的完整入門教程筆記本。如果您有任何疑問或想做出貢獻,請加入我們的懈怠社區。
您可以squirrel-core
pip install squirrel-core安裝所有功能:
pip install " squirrel-core[all] "或選擇您需要的依賴項:
pip install " squirrel-core[gcs,torch] "請參閱文檔的安裝部分,以獲取支持的依賴項的完整列表。
在ReadThedocs閱讀我們的文檔
Squirrel-Datasets-core是一個隨附的Python軟件包,可以做三件事。
松鼠是開源的,歡迎社區貢獻!
查看學習如何參與的貢獻指南。
我們是Merantix Momentum,這是一個約30個機器學習工程師的團隊,開發了用於行業和研究的機器學習解決方案。每個項目都有其自身的挑戰,數據類型和學習,但是我們總是遇到的一個問題是可擴展的數據加載,轉換和共享。我們正在尋找一種解決方案,該解決方案將使我們能夠以快速且具有成本效益的方式加載數據,同時保持與任何可能的數據集一起工作並與任何API集成的靈活性。這就是為什麼我們建造松鼠 - 希望您會發現它和我們一樣有用!順便說一句,我們正在招聘!
如果您在研究中使用松鼠,請使用:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}