deeplake 다운로드 - deeplake 소스 코드 다운로드

deeplake

기타 소스코드

v4.0.3

다운로드

Deep Lake : AI의 데이터베이스

문서 • 시작하기 • API 참조 • Langchain & Vectordbs 코스 • 블로그 • 백서 • 슬랙 • 트위터

Deep Lake는 무엇입니까?

Deep Lake는 딥 러닝 애플리케이션에 최적화 된 스토리지 형식으로 구동되는 AI 용 데이터베이스입니다. Deep Lake는 다음에 사용될 수 있습니다.

LLM 애플리케이션을 구축하는 동안 데이터와 벡터를 저장 및 검색
딥 러닝 모델을 훈련하는 동안 데이터 세트 관리

Deep Lake는 모든 데이터 유형 (임베드, 오디오, 텍스트, 비디오, 이미지, DICOM, PDF, 주석 등), 쿼리 및 벡터 검색, 교육 중 데이터 스트리밍에 대한 스토리지를 제공하여 엔터프라이즈 급 LLM 기반 제품의 배포를 단순화합니다. 규모의 모델, 데이터 버전 및 계보, Langchain, Llamaindex, Weights & Biases 등과 같은 인기있는 도구와의 통합. Deep Lake는 모든 크기의 데이터와 함께 작동하며 서버가 없으며 모든 데이터를 자신의 클라우드와 한 곳에 저장할 수 있습니다. Deep Lake는 Intel, Bayer Radiology, Matterport, Zero Systems, Red Cross, Yale, & Oxford에서 사용합니다.

Deep Lake에는 다음과 같은 기능이 포함되어 있습니다.

멀티 클라우드 지원 (S3, GCP, Azure)

하나의 API를 사용하여 S3, Azure, GCP, Activeloop Cloud, 로컬 스토리지 또는 메모리 내 스토리지에 데이터 세트를 업로드, 다운로드 및 스트리밍하십시오. Minio와 같은 S3 호환 스토리지와 호환됩니다.

게으른 numpy와 같은 인덱싱을 사용한 기본 압축

이미지, 오디오 및 비디오를 기본 압축에 저장하십시오. 시스템의 메모리에 Numpy Array 모음과 같이 데이터와 슬라이스, 인덱스, 반복 및 상호 작용합니다. Deep Lake는 예를 들어 모델을 훈련 시키거나 실행중인 쿼리를 실행할 때만 데이터를 게으르게로드합니다.

인기있는 딥 러닝 프레임 워크를위한 데이터 로더

Deep Lake에는 Pytorch 및 Tensorflow 용 내장 데이터 로더가 제공됩니다. 몇 줄의 코드로 모델을 훈련시킵니다 - 우리는 심지어 데이터 세트 셔플 링을 처리합니다. :)

강력한 도구와 통합

Deep Lake는 LANGCHAIN 및 LLAMAINDEX와 LLM 앱의 벡터 스토어로 통합되어 있으며 모델 교육 중 데이터 계보에 대한 LLM 앱, 웨이트 및 바이어스 교육, 교육 객체 감지 모델을위한 MMDetection 및 Semontic Segmentation 모델을위한 MMSEMETIMATIONATINATION.

100 개 이상의 인기있는 이미지, 비디오 및 오디오 데이터 세트를 몇 초 만에 사용할 수 있습니다.

Deep Lake Community는 MNIST, Coco, Imagenet, Cifar, Gtzan 등과 같은 100 개 이상의 이미지, 비디오 및 오디오 데이터 세트를 업로드했습니다.

Deep Lake 앱의 즉각적인 시각화 지원

Deep Lake 데이터 세트는 Deep Lake Visualizer에서 경계 상자, 마스크, 주석 등으로 즉시 시각화됩니다 (아래 참조).

Deep Lake를 설치하는 방법

Deep Lake는 PIP를 사용하여 설치할 수 있습니다.

pip install deeplake

Deep Lake의 모든 기능에 액세스하려면 Deep Lake 앱에 등록하십시오.

? 응용 프로그램 별 깊은 호수 코드 예제

벡터 저장 응용 프로그램

LLM 응용 프로그램 구축을위한 벡터 매장으로 Deep Lake 사용 :

- 벡터 스토어 QuickStart

- 벡터 상점 자습서

-Langchain 통합

-Llamaindex 통합

- Deep Lake를 사용한 이미지 유사성 검색

딥 러닝 애플리케이션

딥 러닝 모델을 훈련하는 동안 데이터 관리를 위해 Deep Lake 사용 :

- 딥 러닝 QuickStart

- 교육 모델을위한 튜토리얼

통합

Deep Lake는 딥 러닝 워크 플로를 간소화하기 위해 다른 도구와 통합을 제공합니다. 현재 통합은 다음과 같습니다.

LLM 앱
- LLM 앱의 벡터 스토어로 Deep Lake를 사용하십시오. 우리의 통합은 Langchain Vectorstores API를 기본 데이터 저장소로 Deep Lake 데이터 세트와 결합합니다. 통합은 로컬 또는 원하는 클라우드에 배포 할 수있는 서버리스 벡터 스토어입니다.

선적 서류 비치

시작 안내서, 예제, 튜토리얼, API 참조 및 기타 유용한 정보는 문서 페이지에서 찾을 수 있습니다.

? 학생과 교육자를 위해

Deep Lake 사용자는 Deep Lake 앱과 무료 통합을 통해 다양한 인기있는 데이터 세트에 액세스하고 시각화 할 수 있습니다. 대학은 텐서 데이터베이스에서 최대 1TB의 데이터 스토리지와 월간 쿼리를 한 달에 무료로 얻을 수 있습니다. 웹 사이트에서 채팅 : 액세스를 청구합니다!

? familiar 친숙한 도구와 비교

딥 레이크 대 크로마

Deep Lake & ChromADB는 사용자가 벡터 (임베딩)를 저장하고 검색하고 Langchain 및 Llamaindex와 통합 할 수 있도록합니다. 그러나 건축 적으로 매우 다릅니다. ChromADB는 Docker를 사용하여 로컬 또는 서버에 배포 할 수있는 벡터 데이터베이스이며 곧 호스팅 된 솔루션을 제공합니다. Deep Lake는 사용자 자체 클라우드, 로컬 또는 메모리에 배치 된 서버리스 벡터 매장입니다. 모든 컴퓨팅은 클라이언트 측을 실행하므로 사용자가 몇 초 만에 가벼운 프로덕션 앱을 지원할 수 있습니다. ChromADB와 달리 Deep Lake의 데이터 형식은 이미지, 비디오 및 텍스트와 같은 원시 데이터를 내장 외에 저장할 수 있습니다. ChromADB는 임베드 위에 광 메타 데이터로 제한되며 시각화가 없습니다. Deep Lake 데이터 세트를 시각화하고 버전을 제어 할 수 있습니다. Deep Lake는 또한 대형 언어 모델을 미세 조정하기위한 성능 데이터 로더를 보유하고 있습니다.

딥 레이크 대 소니콘

Deep Lake와 Pinecone을 사용하면 사용자가 벡터 (임베딩)를 저장하고 검색하고 Langchain 및 Llamaindex와 통합 할 수 있습니다. 그러나 건축 적으로 매우 다릅니다. Pinecone은 완전히 관리되는 벡터 데이터베이스로 수십억 개의 벡터를 검색 해야하는 매우 까다로운 애플리케이션에 최적화되었습니다. Deep Lake는 서버리스입니다. 모든 계산은 클라이언트 측을 실행하므로 사용자가 몇 초 안에 시작할 수 있습니다. Pinecone과 달리 Deep Lake의 데이터 형식은 내장 외에 이미지, 비디오 및 텍스트와 같은 원시 데이터를 저장할 수 있습니다. Deep Lake 데이터 세트를 시각화하고 버전을 제어 할 수 있습니다. PENECONE은 임베딩 위의 광 메타 데이터로 제한되며 시각화가 없습니다. Deep Lake는 또한 대형 언어 모델을 미세 조정하기위한 성능 데이터 로더를 보유하고 있습니다.

Deep Lake vs Weaviate

Deep Lake와 Weaviate는 사용자가 벡터 (임베딩)를 저장하고 검색하고 Langchain 및 Llamaindex와 통합 할 수 있도록합니다. 그러나 건축 적으로 매우 다릅니다. Weaviate는 관리 서비스 또는 Kubernetes 또는 Docker를 통해 사용자가 배포 할 수있는 벡터 데이터베이스입니다. Deep Lake는 서버리스입니다. 모든 컴퓨팅은 클라이언트 측을 실행하므로 사용자가 몇 초 만에 가벼운 프로덕션 앱을 지원할 수 있습니다. Weaviate와 달리 Deep Lake의 데이터 형식은 이미지, 비디오 및 텍스트와 같은 원시 데이터를 내장 외에 저장할 수 있습니다. Deep Lake 데이터 세트를 시각화하고 버전을 제어 할 수 있습니다. Weaviate는 임베드 위의 광 메타 데이터로 제한되며 시각화가 없습니다. Deep Lake는 또한 대형 언어 모델을 미세 조정하기위한 성능 데이터 로더를 보유하고 있습니다.

딥 레이크 대 DVC

Deep Lake 및 DVC는 데이터 용 GIT와 유사한 데이터 세트 버전 제어를 제공하지만 데이터 저장 방법은 크게 다릅니다. Deep Lake는 데이터를 청크 압축 어레이로 변환하고 저장하여 ML 모델로의 빠른 스트리밍을 가능하게하는 반면 DVC는 덜 효율적인 전통적인 파일 구조에 저장된 데이터 위에서 작동합니다. Deep Lake 형식은 데이터 세트가 많은 파일 (즉, 많은 이미지)으로 구성 될 때 DVC의 기존 파일 구조에 비해 데이터 세트 버전을 훨씬 쉽게 쉽게 만들 수 있습니다. 추가적인 차이점은 DVC가 주로 명령 줄 인터페이스를 사용하는 반면 Deep Lake는 Python 패키지라는 것입니다. 마지막으로, Deep Lake는 데이터 세트를 ML 프레임 워크 및 기타 공통 ML 도구에 쉽게 연결할 수있는 API를 제공하고 Activeloop의 시각화 도구를 통해 인스턴트 데이터 세트 시각화를 가능하게합니다.

Deep Lake vs Mosaicml MDS 형식

데이터 스토리지 형식 : Deep Lake는 원주식 저장 형식으로 작동하는 반면 MDS는 저장된 스토리지 접근 방식을 사용합니다. 이는 각 시스템에서 데이터를 읽고, 작성하고 구성하는 방식에 근본적으로 영향을 미칩니다.
압축 : Deep Lake는보다 유연한 압축 체계를 제공하여 각 열 또는 텐서의 청크 레벨 및 샘플 수준 압축을 제어 할 수 있습니다. 이 기능은 ZSTD와 같은 추가 압축이 필요하지 않으며, 그렇지 않으면 JPEG와 같은 형식 위에서 감압하기 위해 더 많은 CPU 사이클이 필요합니다.
셔플 링 : MDS는 현재보다 고급 셔플 링 전략을 제공합니다.
버전 제어 및 시각화 지원 : Deep Lake의 주목할만한 기능은 기본 버전 제어 및 브라우저 내 데이터 시각화이며, MosaICML 데이터 형식에는 존재하지 않습니다. 이를 통해 다양한 버전의 데이터를 관리, 이해 및 추적하는 데 중요한 이점이 있습니다.

Deep Lake vs Tensorflow 데이터 세트 (TFD)

Deep Lake 및 TFD는 인기있는 데이터 세트를 ML 프레임 워크에 원활하게 연결합니다. Deep Lake 데이터 세트는 Pytorch 및 Tensorflow와 호환되는 반면 TFD는 Tensorflow 와만 호환됩니다. Deep Lake와 TFD의 주요 차이점은 Deep Lake 데이터 세트가 클라우드에서 스트리밍하도록 설계되었으며 TFD는 사용하기 전에 로컬로 다운로드해야한다는 것입니다. 결과적으로 Deep Lake를 사용하면 Tensorflow 데이터 세트에서 데이터 세트를 직접 가져와 Pytorch 또는 Tensorflow로 스트리밍 할 수 있습니다. Deep Lake는 인기있는 공개 데이터 세트에 대한 액세스를 제공하는 것 외에도 사용자 정의 데이터 세트를 작성하고 다양한 클라우드 스토리지 제공 업체에 저장하고 간단한 API를 통해 다른 사람들과 협력하는 강력한 도구를 제공합니다. TFD는 주로 일반적으로 사용 가능한 데이터 세트에 쉽게 액세스 할 수있는 데 중점을두고 있으며 사용자 정의 데이터 세트 관리가 주요 초점이 아닙니다. 전체 비교 기사는 여기에서 찾을 수 있습니다.

딥 레이크 대 안아

Deep Lake와 Huggingface는 인기있는 데이터 세트에 액세스 할 수 있지만 Deep Lake는 주로 컴퓨터 비전에 중점을 두는 반면 Huggingf Huggingface 변환 및 NLP 용 기타 계산 도구는 Deep Lake가 제공하는 기능과 유사하지 않습니다.

Deep Lake vs WebDatasets

Deep Lake와 WebDatasets는 모두 네트워크 전체에서 빠른 데이터 스트리밍을 제공합니다. 기본 네트워크 요청 및 데이터 구조가 매우 유사하기 때문에 거의 동일한 증기 속도를 가지고 있습니다. 그러나 Deep Lake는 탁월한 임의의 액세스 및 셔플 링을 제공하며 간단한 API는 명령 줄 대신 파이썬에 있으며 Deep Lake는 데이터 세트를 재현하지 않고도 데이터 세트의 간단한 인덱싱 및 수정을 가능하게합니다.

Deep Lake vs Zarr

Deep Lake와 Zarr는 모두 데이터를 청크 배열로 보관할 수 있습니다. 그러나 Deep Lake는 주로 원시 어레이를 저장하는 대신 간단한 API를 사용하여 데이터를 배열로 리턴하도록 설계되었습니다 (가능하지만). Deep Lake는 이미지의 경우 JPEG 또는 PNG와 같은 사용 사례 최적화 형식 또는 비디오 용 MP4와 같은 데이터를 저장하며, Deep Lake는 모든 데이터 처리를 처리하기 때문에 데이터를 배열 인 것처럼 취급합니다. Deep Lake는 동적 모양 (Ragged Tensors)으로 배열을 저장할 수있는 유연성을 제공하며 버전 제어, 데이터 스트리밍 및 ML 프레임 워크에 데이터 연결과 같이 Zarr에서는 순진하게 사용할 수없는 몇 가지 기능을 제공합니다.

지역 사회

Slack 커뮤니티 에 가입하여 Deep Lake를 사용하여 구조화되지 않은 데이터 세트 관리에 대해 자세히 알아보고 Activeloop 팀 및 기타 사용자로부터 도움을 받으십시오.

3 분 설문 조사를 완료하여 피드백을 좋아합니다.

언제나 그렇듯이 놀라운 기고자 덕분에!

기고자와 함께 만들어졌습니다.

Deep Lake에 기여하기 시작하려면 Contration.Md를 읽으십시오.

readme 배지

Deep Lake 사용? README 배지를 추가하여 모든 사람에게 알리십시오.

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

면책 조항

데이터 세트 라이센스

Deep Lake 사용자는 공개적으로 사용 가능한 다양한 데이터 세트에 액세스 할 수 있습니다. 당사는 이러한 데이터 세트를 호스팅하거나 배포하지 않거나 품질이나 공정성을 보증하거나 데이터 세트를 사용할 수있는 라이센스가 있다고 주장합니다. 라이센스에 따라 데이터 세트를 사용할 권한이 있는지 여부를 결정하는 것은 귀하의 책임입니다.

데이터 세트 소유자 이고이 라이브러리에 데이터 세트가 포함되기를 원하지 않으면 GitHub 문제를 해결하십시오. ML 커뮤니티에 대한 귀하의 기여에 감사드립니다!

사용량 추적

기본적으로 Bugout을 사용하여 사용 데이터를 수집합니다 (여기서는 코드가 있습니다). 익명화 된 IP 주소 데이터 이외의 사용자 데이터를 수집하지 않으며 Deep Lake Library의 조치 만 기록합니다. 이것은 우리 팀이 도구 사용 방법과 중요한 기능을 구축하는 방법을 이해하는 데 도움이됩니다! Activeloop에 등록하면 데이터가 더 이상 익명이 아닙니다. 환경 변수 인 BUGGER_OFF True 로 설정하여 항상보고를 거부 할 수 있습니다.

소환

연구에서 Deep Lake를 사용하는 경우 : Activeloop를 사용하여 다음을 인용하십시오.

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

승인

이 기술은 Princeton University의 연구에서 영감을 얻었습니다. 우리는 그의 멋진 클라우드 볼륨 도구에 대해 William Silversmith @seunglab에게 감사의 말씀을 전합니다.

확장하다

추가 정보

버전 v4.0.3
유형 기타 소스코드
업데이트 시간 2025-02-23
크기 56.75KB
출처 Github