Deep Lake는 딥 러닝 애플리케이션에 최적화 된 스토리지 형식으로 구동되는 AI 용 데이터베이스입니다. Deep Lake는 다음에 사용될 수 있습니다.
Deep Lake는 모든 데이터 유형 (임베드, 오디오, 텍스트, 비디오, 이미지, DICOM, PDF, 주석 등), 쿼리 및 벡터 검색, 교육 중 데이터 스트리밍에 대한 스토리지를 제공하여 엔터프라이즈 급 LLM 기반 제품의 배포를 단순화합니다. 규모의 모델, 데이터 버전 및 계보, Langchain, Llamaindex, Weights & Biases 등과 같은 인기있는 도구와의 통합. Deep Lake는 모든 크기의 데이터와 함께 작동하며 서버가 없으며 모든 데이터를 자신의 클라우드와 한 곳에 저장할 수 있습니다. Deep Lake는 Intel, Bayer Radiology, Matterport, Zero Systems, Red Cross, Yale, & Oxford에서 사용합니다.
Deep Lake는 PIP를 사용하여 설치할 수 있습니다.
pip install deeplakeLLM 응용 프로그램 구축을위한 벡터 매장으로 Deep Lake 사용 :
딥 러닝 모델을 훈련하는 동안 데이터 관리를 위해 Deep Lake 사용 :
Deep Lake는 딥 러닝 워크 플로를 간소화하기 위해 다른 도구와 통합을 제공합니다. 현재 통합은 다음과 같습니다.
시작 안내서, 예제, 튜토리얼, API 참조 및 기타 유용한 정보는 문서 페이지에서 찾을 수 있습니다.
Deep Lake 사용자는 Deep Lake 앱과 무료 통합을 통해 다양한 인기있는 데이터 세트에 액세스하고 시각화 할 수 있습니다. 대학은 텐서 데이터베이스에서 최대 1TB의 데이터 스토리지와 월간 쿼리를 한 달에 무료로 얻을 수 있습니다. 웹 사이트에서 채팅 : 액세스를 청구합니다!
Deep Lake & ChromADB는 사용자가 벡터 (임베딩)를 저장하고 검색하고 Langchain 및 Llamaindex와 통합 할 수 있도록합니다. 그러나 건축 적으로 매우 다릅니다. ChromADB는 Docker를 사용하여 로컬 또는 서버에 배포 할 수있는 벡터 데이터베이스이며 곧 호스팅 된 솔루션을 제공합니다. Deep Lake는 사용자 자체 클라우드, 로컬 또는 메모리에 배치 된 서버리스 벡터 매장입니다. 모든 컴퓨팅은 클라이언트 측을 실행하므로 사용자가 몇 초 만에 가벼운 프로덕션 앱을 지원할 수 있습니다. ChromADB와 달리 Deep Lake의 데이터 형식은 이미지, 비디오 및 텍스트와 같은 원시 데이터를 내장 외에 저장할 수 있습니다. ChromADB는 임베드 위에 광 메타 데이터로 제한되며 시각화가 없습니다. Deep Lake 데이터 세트를 시각화하고 버전을 제어 할 수 있습니다. Deep Lake는 또한 대형 언어 모델을 미세 조정하기위한 성능 데이터 로더를 보유하고 있습니다.
Deep Lake와 Pinecone을 사용하면 사용자가 벡터 (임베딩)를 저장하고 검색하고 Langchain 및 Llamaindex와 통합 할 수 있습니다. 그러나 건축 적으로 매우 다릅니다. Pinecone은 완전히 관리되는 벡터 데이터베이스로 수십억 개의 벡터를 검색 해야하는 매우 까다로운 애플리케이션에 최적화되었습니다. Deep Lake는 서버리스입니다. 모든 계산은 클라이언트 측을 실행하므로 사용자가 몇 초 안에 시작할 수 있습니다. Pinecone과 달리 Deep Lake의 데이터 형식은 내장 외에 이미지, 비디오 및 텍스트와 같은 원시 데이터를 저장할 수 있습니다. Deep Lake 데이터 세트를 시각화하고 버전을 제어 할 수 있습니다. PENECONE은 임베딩 위의 광 메타 데이터로 제한되며 시각화가 없습니다. Deep Lake는 또한 대형 언어 모델을 미세 조정하기위한 성능 데이터 로더를 보유하고 있습니다.
Deep Lake와 Weaviate는 사용자가 벡터 (임베딩)를 저장하고 검색하고 Langchain 및 Llamaindex와 통합 할 수 있도록합니다. 그러나 건축 적으로 매우 다릅니다. Weaviate는 관리 서비스 또는 Kubernetes 또는 Docker를 통해 사용자가 배포 할 수있는 벡터 데이터베이스입니다. Deep Lake는 서버리스입니다. 모든 컴퓨팅은 클라이언트 측을 실행하므로 사용자가 몇 초 만에 가벼운 프로덕션 앱을 지원할 수 있습니다. Weaviate와 달리 Deep Lake의 데이터 형식은 이미지, 비디오 및 텍스트와 같은 원시 데이터를 내장 외에 저장할 수 있습니다. Deep Lake 데이터 세트를 시각화하고 버전을 제어 할 수 있습니다. Weaviate는 임베드 위의 광 메타 데이터로 제한되며 시각화가 없습니다. Deep Lake는 또한 대형 언어 모델을 미세 조정하기위한 성능 데이터 로더를 보유하고 있습니다.
Deep Lake 및 DVC는 데이터 용 GIT와 유사한 데이터 세트 버전 제어를 제공하지만 데이터 저장 방법은 크게 다릅니다. Deep Lake는 데이터를 청크 압축 어레이로 변환하고 저장하여 ML 모델로의 빠른 스트리밍을 가능하게하는 반면 DVC는 덜 효율적인 전통적인 파일 구조에 저장된 데이터 위에서 작동합니다. Deep Lake 형식은 데이터 세트가 많은 파일 (즉, 많은 이미지)으로 구성 될 때 DVC의 기존 파일 구조에 비해 데이터 세트 버전을 훨씬 쉽게 쉽게 만들 수 있습니다. 추가적인 차이점은 DVC가 주로 명령 줄 인터페이스를 사용하는 반면 Deep Lake는 Python 패키지라는 것입니다. 마지막으로, Deep Lake는 데이터 세트를 ML 프레임 워크 및 기타 공통 ML 도구에 쉽게 연결할 수있는 API를 제공하고 Activeloop의 시각화 도구를 통해 인스턴트 데이터 세트 시각화를 가능하게합니다.
Deep Lake 및 TFD는 인기있는 데이터 세트를 ML 프레임 워크에 원활하게 연결합니다. Deep Lake 데이터 세트는 Pytorch 및 Tensorflow와 호환되는 반면 TFD는 Tensorflow 와만 호환됩니다. Deep Lake와 TFD의 주요 차이점은 Deep Lake 데이터 세트가 클라우드에서 스트리밍하도록 설계되었으며 TFD는 사용하기 전에 로컬로 다운로드해야한다는 것입니다. 결과적으로 Deep Lake를 사용하면 Tensorflow 데이터 세트에서 데이터 세트를 직접 가져와 Pytorch 또는 Tensorflow로 스트리밍 할 수 있습니다. Deep Lake는 인기있는 공개 데이터 세트에 대한 액세스를 제공하는 것 외에도 사용자 정의 데이터 세트를 작성하고 다양한 클라우드 스토리지 제공 업체에 저장하고 간단한 API를 통해 다른 사람들과 협력하는 강력한 도구를 제공합니다. TFD는 주로 일반적으로 사용 가능한 데이터 세트에 쉽게 액세스 할 수있는 데 중점을두고 있으며 사용자 정의 데이터 세트 관리가 주요 초점이 아닙니다. 전체 비교 기사는 여기에서 찾을 수 있습니다.
Slack 커뮤니티 에 가입하여 Deep Lake를 사용하여 구조화되지 않은 데이터 세트 관리에 대해 자세히 알아보고 Activeloop 팀 및 기타 사용자로부터 도움을 받으십시오.
3 분 설문 조사를 완료하여 피드백을 좋아합니다.
언제나 그렇듯이 놀라운 기고자 덕분에!
기고자와 함께 만들어졌습니다.
Deep Lake에 기여하기 시작하려면 Contration.Md를 읽으십시오.
Deep Lake 사용? README 배지를 추가하여 모든 사람에게 알리십시오.
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Deep Lake 사용자는 공개적으로 사용 가능한 다양한 데이터 세트에 액세스 할 수 있습니다. 당사는 이러한 데이터 세트를 호스팅하거나 배포하지 않거나 품질이나 공정성을 보증하거나 데이터 세트를 사용할 수있는 라이센스가 있다고 주장합니다. 라이센스에 따라 데이터 세트를 사용할 권한이 있는지 여부를 결정하는 것은 귀하의 책임입니다.
데이터 세트 소유자 이고이 라이브러리에 데이터 세트가 포함되기를 원하지 않으면 GitHub 문제를 해결하십시오. ML 커뮤니티에 대한 귀하의 기여에 감사드립니다!
기본적으로 Bugout을 사용하여 사용 데이터를 수집합니다 (여기서는 코드가 있습니다). 익명화 된 IP 주소 데이터 이외의 사용자 데이터를 수집하지 않으며 Deep Lake Library의 조치 만 기록합니다. 이것은 우리 팀이 도구 사용 방법과 중요한 기능을 구축하는 방법을 이해하는 데 도움이됩니다! Activeloop에 등록하면 데이터가 더 이상 익명이 아닙니다. 환경 변수 인 BUGGER_OFF True 로 설정하여 항상보고를 거부 할 수 있습니다.
연구에서 Deep Lake를 사용하는 경우 : Activeloop를 사용하여 다음을 인용하십시오.
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}이 기술은 Princeton University의 연구에서 영감을 얻었습니다. 우리는 그의 멋진 클라우드 볼륨 도구에 대해 William Silversmith @seunglab에게 감사의 말씀을 전합니다.