コラボレーション、柔軟で効率的な方法でデータを共有、ロード、および変換する
リスは、MLチームがコラボレーション、柔軟な、効率的な方法でデータを共有、ロード、および変換できるようにするPythonライブラリです。
速度:データストールを避け、つまり、データを待っている間、高価なGPUはアイドル状態になりません。
コスト:最初に、GPUの失速を避け、2番目にデータをシャードしてクラスター化し、バンドルで保存してロードし、データバケットクラウドストレージのコストを削減します。
柔軟性:マルチモーダルデータを含むあらゆる設定に適応できる柔軟な標準データスキームを使用します。
コラボレーション:セルフサービスモデルでチームとプロジェクト間でデータとコードを簡単に共有できるようにします。
どこからでもデータを機械学習モデルに簡単にストリーミングします。
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)完全に開始するチュートリアルノートブックをご覧ください。ご質問がある場合、または貢献したい場合は、Slackコミュニティに参加してください。
squirrel-coreをインストールできます
pip install squirrel-coreすべての機能と機能をインストールするには:
pip install " squirrel-core[all] "または、必要な依存関係を選択します。
pip install " squirrel-core[gcs,torch] "サポートされている依存関係の完全なリストについては、ドキュメントのインストールセクションを参照してください。
ReadThedocsでドキュメントを読んでください
Squirrel-Datasets-Coreは、3つのことを行う付随するPythonパッケージです。
リスはオープンソースであり、コミュニティの貢献は大歓迎です!
参加方法を学ぶための貢献ガイドをチェックしてください。
私たちは、約30人の機械学習エンジニアのチームであるMerantix Momentumであり、業界と研究のための機械学習ソリューションを開発しています。各プロジェクトには、独自の課題、データ型、学習が伴いますが、私たちが常に直面した問題の1つは、スケーラブルなデータの読み込み、変換、共有でした。私たちは、可能なデータセットを操作してAPIと統合する柔軟性を維持しながら、高速かつ費用効率の高い方法でデータをロードできるソリューションを探していました。だから私たちはリスを構築します - そして、あなたが私たちと同じように便利だと思うことを願っています!ちなみに、私たちは雇っています!
あなたの研究でリスを使用している場合は、以下を使用して引用してください。
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}