Deep Lake是AI的數據庫,該數據庫由為深度學習應用優化的存儲格式提供動力。深湖可用於:
Deep Lake通過提供所有數據類型(嵌入,音頻,文本,視頻,圖像,DICOM,DICOM,PDF,註釋等),查詢和矢量搜索,訓練時,請在企業級基於LLM的產品中部署基於LLM的產品大規模的模型,數據版本和譜系,以及與蘭班,llamaindex,權重和偏見等流行工具的集成。 Deep Lake可以使用任何大小的數據,它是無服務器的,它使您可以將所有數據存儲在自己的雲和一個地方。 Deep Lake由Intel,Bayer放射學,Matterport,零系統,紅十字會,耶魯大學和牛津使用。
可以使用PIP安裝深湖:
pip install deeplake將深湖用作構建LLM應用的矢量商店:
在訓練深度學習模型的同時,使用深湖管理數據:
Deep Lake提供與其他工具的集成,以簡化您的深度學習工作流程。當前集成包括:
入門指南,示例,教程,API參考和其他有用信息,請參見我們的文檔頁面。
Deep Lake用戶可以通過與Deep Lake的應用程序免費集成來訪問和可視化各種受歡迎的數據集。大學每月免費在張量數據庫上免費獲得1TB的數據存儲和100,000個每月查詢。在我們的網站上聊天:要求訪問!
Deep Lake&Chromadb都使用戶能夠存儲和搜索向量(嵌入)並與Langchain和Llamaindex提供集成。但是,它們在建築上非常不同。 Chromadb是一個矢量數據庫,可以使用Docker在本地或服務器上部署,並將盡快提供託管解決方案。 Deep Lake是一家部署在用戶自己的雲上,本地或內存中的無服務器矢量商店。所有計算都運行客戶端,這使用戶能夠在幾秒鐘內支持輕型生產應用程序。與Chromadb不同,Deep Lake的數據格式除了嵌入外,還可以存儲圖像,視頻和文本等原始數據。 Chromadb僅限於嵌入在嵌入式上的光元數據,並且沒有可視化。深層湖數據集可以可視化並控製版本。 Deep Lake還設有一個表演劑數據加載程序,用於微調大型語言模型。
深湖和Pinecone都使用戶能夠存儲和搜索矢量(嵌入)並與Langchain和Llamaindex提供集成。但是,它們在建築上非常不同。 Pinecone是一個完全管理的矢量數據庫,針對需要搜索數十億個向量的高度要求的應用程序進行了優化。深湖是無服務的。所有計算都運行客戶端,這使用戶能夠在幾秒鐘內開始啟動。與Pinecone不同,Deep Lake的數據格式除了嵌入外,還可以存儲圖像,視頻和文本等原始數據。深層湖數據集可以可視化並控製版本。 Pinecone僅限於嵌入式頂部的光元數據,並且沒有可視化。 Deep Lake還設有一個表演劑數據加載程序,用於微調大型語言模型。
深湖和編織都使用戶能夠存儲和搜索向量(嵌入)並與Langchain和Llamaindex提供集成。但是,它們在建築上非常不同。編織是一個矢量數據庫,可以通過Kubernetes或Docker部署在託管服務中或用戶。深湖是無服務的。所有計算都運行客戶端,這使用戶能夠在幾秒鐘內支持輕型生產應用程序。與編織不同,除嵌入外,Deep Lake的數據格式還可以存儲原始數據,例如圖像,視頻和文本。深層湖數據集可以可視化並控製版本。編織僅限於嵌入在嵌入式頂部的光元數據,並且沒有可視化。 Deep Lake還設有一個表演劑數據加載程序,用於微調大型語言模型。
Deep Lake和DVC提供與數據類似於GIT的數據集版本控制,但它們存儲數據的方法有很大差異。 Deep Lake將數據轉換為塊狀壓縮陣列,可以快速流式傳輸到ML模型,而DVC在存儲在較不高效的傳統文件結構中的數據之上。當數據集由許多文件組成時,與DVC傳統文件結構相比,Deep Lake格式使數據集版本的版本非常容易(即,許多圖像)。另一個區別是DVC主要使用命令行界面,而深湖是Python套件。最後,Deep Lake提供了一個API,可輕鬆將數據集連接到ML框架和其他常見的ML工具,並通過Activeloop的可視化工具啟用即時數據集可視化。
深湖和TFD無縫將流行的數據集連接到ML框架。深湖數據集與Pytorch和Tensorflow兼容,而TFD僅與張量兼容。深湖和TFD之間的一個關鍵區別在於,深湖數據集設計用於從雲中流式傳輸,而TFD必須在本地下載。結果,使用深湖,可以直接從TensorFlow數據集導入數據集並將其流式傳輸到Pytorch或Tensorflow。除了提供對流行的公開可用數據集訪問權限外,Deep Lake還提供了可創建自定義數據集,將其存儲在各種雲存儲提供商上的功能強大的工具,並通過簡單的API與他人合作。 TFD主要專注於讓公眾輕鬆訪問常用數據集,而自定義數據集的管理不是主要重點。可以在此處找到完整的比較文章。
加入我們的Slack社區,使用Deep Lake了解有關非結構化數據集管理的更多信息,並獲得Activeloop團隊和其他用戶的幫助。
我們希望通過完成3分鐘的調查來喜歡您的反饋。
與往常一樣,感謝我們出色的貢獻者!
用貢獻者製成。
請閱讀貢獻。
使用深湖?添加一個識別徽章讓所有人都知道:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) 深湖用戶可能可以訪問各種公開可用的數據集。我們不託管或分發這些數據集,保證其質量或公平性,或聲稱您已有使用數據集的許可證。您有責任確定您是否有權根據其許可使用數據集。
如果您是數據集所有者,並且不希望您的數據集包含在此庫中,請通過GitHub問題與您聯繫。感謝您對ML社區的貢獻!
默認情況下,我們使用bugout收集使用數據(這是執行此操作的代碼)。除了匿名IP地址數據外,它不會收集用戶數據,並且僅記錄Deep Lake圖書館自己的操作。這有助於我們的團隊了解如何使用該工具以及如何構建對您重要的功能!在Activeloop註冊後,數據不再是匿名的。您始終可以通過將環境變量BUGGER_OFF設置為True來選擇退出報告:
如果您在研究中使用深湖,請引用Activeloop使用:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}這項技術的靈感來自我們在普林斯頓大學的研究工作。我們要感謝William Silversmith @Seunglab的雲量工具。