Berbagi, memuat, dan mengubah data dengan cara kolaboratif, fleksibel, dan efisien
Squirrel adalah perpustakaan Python yang memungkinkan tim ML untuk berbagi, memuat, dan mengubah data dengan cara kolaboratif, fleksibel, dan efisien.
Kecepatan: Hindari kios data, yaitu GPU yang mahal tidak akan menganggur sambil menunggu data.
Biaya: Pertama, hindari macet GPU, dan kedua memungkinkan untuk melakukan shard & cluster data Anda dan menyimpan & memuatnya dalam bundel, mengurangi biaya untuk penyimpanan awan ember data Anda.
Fleksibilitas: Bekerja dengan skema data standar fleksibel yang dapat disesuaikan dengan pengaturan apa pun, termasuk data multimodal.
Kolaborasi: Memudahkan untuk berbagi data & kode antara tim dan proyek dalam model swalayan.
Streaming data dari mana saja ke model pembelajaran mesin Anda semudah:
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)Lihatlah buku catatan tutorial yang memulai lengkap kami. Jika Anda memiliki pertanyaan atau ingin berkontribusi, bergabunglah dengan komunitas Slack kami.
Anda dapat menginstal squirrel-core oleh
pip install squirrel-coreUntuk menginstal semua fitur dan fungsi:
pip install " squirrel-core[all] "Atau pilih dependensi yang Anda butuhkan:
pip install " squirrel-core[gcs,torch] "Silakan merujuk ke bagian instalasi dokumentasi untuk daftar lengkap dependensi yang didukung.
Baca dokumentasi kami di readthedocs
Squirrel-Datasets-Core adalah paket ular python yang menyertainya yang melakukan tiga hal.
Squirrel adalah kontribusi open source dan komunitas dipersilakan!
Lihat Panduan Kontribusi untuk mempelajari cara terlibat.
We Are Merantix Momentum, tim ~ 30 insinyur pembelajaran mesin, mengembangkan solusi pembelajaran mesin untuk industri dan penelitian. Setiap proyek hadir dengan tantangan, tipe data, dan pembelajarannya sendiri, tetapi satu masalah yang selalu kami hadapi adalah pemuatan data yang dapat diskalakan, mengubah dan berbagi. Kami mencari solusi yang memungkinkan kami memuat data dengan cara yang cepat dan hemat biaya, sambil menjaga fleksibilitas untuk bekerja dengan dataset yang mungkin dan berintegrasi dengan API apa pun. Itu sebabnya kami membangun tupai - dan kami harap Anda akan menganggapnya berguna seperti yang kami lakukan! Ngomong -ngomong, kita sedang merekrut!
Jika Anda menggunakan tupai dalam riset Anda, silakan mengutipnya menggunakan:
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}