협업적이고 유연하며 효율적인 방법으로 데이터를 공유,로드 및 변환합니다.
Squirrel은 ML 팀이 협업적이고 유연하며 효율적인 방식으로 데이터를 공유,로드 및 변환 할 수있는 Python 라이브러리입니다.
속도 : 데이터 스톨을 피하십시오. 즉, 비싼 GPU는 데이터를 기다리는 동안 유휴 상태가되지 않습니다.
비용 : 먼저, GPU 마구간을 피하고 두 번째는 데이터를 샤드 및 클러스터링하고 번들에 저장 및로드하여 데이터 버킷 클라우드 스토리지 비용을 줄입니다.
유연성 : 멀티 모달 데이터를 포함하여 모든 설정에 적응할 수있는 유연한 표준 데이터 체계로 작업하십시오.
협업 : 셀프 서비스 모델에서 팀과 프로젝트간에 데이터 및 코드를보다 쉽게 공유 할 수 있습니다.
어디에서나 머신 러닝 모델로 데이터를 스트리밍합니다.
it = (
Catalog . from_plugins ()[ "imagenet" ]
. get_driver ()
. get_iter ( "train" )
. map ( lambda r : ( augment ( r [ "image" ]), r [ "label" ]))
. batched ( 100 )
)전체 시작 튜토리얼 노트북을 확인하십시오. 궁금한 점이 있거나 기여하고 싶다면 슬랙 커뮤니티에 가입하십시오.
squirrel-core 설치할 수 있습니다
pip install squirrel-core모든 기능과 기능을 설치하려면 :
pip install " squirrel-core[all] "또는 필요한 종속성을 선택하십시오.
pip install " squirrel-core[gcs,torch] "지원되는 종속성의 전체 목록은 문서의 설치 섹션을 참조하십시오.
ReadThedocs에서 문서를 읽으십시오
다람쥐 다타셋 코어는 세 가지를 수행하는 동반 파이썬 패키지입니다.
다람쥐는 오픈 소스이며 커뮤니티 기부금을 환영합니다!
참여 방법을 배우려면 기여 가이드를 확인하십시오.
우리는 ~ 30 개의 기계 학습 엔지니어로 구성된 팀인 Merantix Momentum입니다. 산업 및 연구를위한 기계 학습 솔루션을 개발합니다. 각 프로젝트에는 고유 한 과제, 데이터 유형 및 학습이 제공되지만 우리가 항상 직면 한 한 가지 문제는 확장 가능한 데이터로드, 변환 및 공유였습니다. 우리는 데이터를 빠르고 비용 효율적인 방식으로로드 할 수있는 솔루션을 찾고 있으며 가능한 모든 데이터 세트에서 작동하고 API와 통합 할 수있는 유연성을 유지했습니다. 그래서 우리는 다람쥐를 구축하는 이유입니다. 그건 그렇고, 우리는 고용하고 있습니다!
연구에서 다람쥐를 사용하는 경우 다음을 사용하여 인용하십시오.
@article { 2022squirrelcore ,
title = { Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way. } ,
author = { Squirrel Developer Team } ,
journal = { GitHub. Note: https://github.com/merantix-momentum/squirrel-core } ,
doi = { 10.5281/zenodo.6418280 } ,
year = { 2022 }
}