deeplake下載 - deeplake源代碼下載

deeplake

其他源碼

v4.0.3

下載

深湖：AI數據庫

文檔•入門• API參考• Langchain＆Vectordbs課程•博客•白皮書• Slack • Twitter

什麼是深湖？

Deep Lake是AI的數據庫，該數據庫由為深度學習應用優化的存儲格式提供動力。深湖可用於：

在構建LLM應用程序時存儲和搜索數據以及向量
在培訓深度學習模型時管理數據集

Deep Lake通過提供所有數據類型（嵌入，音頻，文本，視頻，圖像，DICOM，DICOM，PDF，註釋等），查詢和矢量搜索，訓練時，請在企業級基於LLM的產品中部署基於LLM的產品大規模的模型，數據版本和譜系，以及與蘭班，llamaindex，權重和偏見等流行工具的集成。 Deep Lake可以使用任何大小的數據，它是無服務器的，它使您可以將所有數據存儲在自己的雲和一個地方。 Deep Lake由Intel，Bayer放射學，Matterport，零系統，紅十字會，耶魯大學和牛津使用。

深湖包括以下特徵：

多雲支持（S3，GCP，Azure）

使用一個API在S3，Azure，GCP，Activeloop Cloud，Local Storage或內存存儲中上傳，下載和流數據集上傳，下載和流數據集。與任何與S3兼容的存儲（例如Minio）兼容。

本機壓縮帶有懶惰的numpy狀索引

將圖像，音頻和視頻存儲在其本機壓縮中。切片，索引，迭代並與您的數據進行交互，就像系統內存中的numpy陣列集合一樣。 Deep Lake Lazily僅在需要時，例如，在訓練模型或運行查詢時加載數據。

流行深度學習框架的數據加載器

Deep Lake配備了用於Pytorch和Tensorflow的內置數據加載器。用幾行代碼訓練您的模型 - 我們甚至會照顧數據集改組。 :)

與強大的工具集成

Deep Lake與Langchain和Llamaindex的集成是LLM應用程序的矢量商店，在模型訓練期間用於數據譜系的權重和偏見，用於訓練對象檢測模型的MMDeTection以及用於訓練語義細分模型的MM分割。

100多個最受歡迎的圖像，視頻和音頻數據集以秒為單位可用

Deep Lake社區上傳了100多個圖像，視頻和音頻數據集，例如MNIST，COCO，IMAGENET，CIFAR，GTZAN等。

Deep Lake應用中的即時可視化支持

深湖數據集可立即使用邊界盒，口罩，註釋等可視化。

如何安裝深湖

可以使用PIP安裝深湖：

pip install deeplake

要訪問所有深湖的功能，請在深湖應用中註冊。

？深層湖法規示例

向量商店應用

將深湖用作構建LLM應用的矢量商店：

-Vector Store Quickstart

- 矢量商店教程

- 蘭鏈集成

- Llamaindex集成

- 與深湖的圖像相似性搜索

深度學習應用

在訓練深度學習模型的同時，使用深湖管理數據：

- 深度學習Quickstart

- 培訓模型的教程

集成

Deep Lake提供與其他工具的集成，以簡化您的深度學習工作流程。當前集成包括：

LLM應用程序
- 使用深湖作為LLM應用程序的矢量商店。我們的集成將Langchain VectorStores API與深湖數據集結合在一起，作為基礎數據存儲。集成是一個無服務器矢量存儲，可以在本地或您選擇的雲中部署。

文件

入門指南，示例，教程，API參考和其他有用信息，請參見我們的文檔頁面。

？適用於學生和教育者

Deep Lake用戶可以通過與Deep Lake的應用程序免費集成來訪問和可視化各種受歡迎的數據集。大學每月免費在張量數據庫上免費獲得1TB的數據存儲和100,000個每月查詢。在我們的網站上聊天：要求訪問！

？‍與熟悉的工具進行比較

深湖與色度

Deep Lake＆Chromadb都使用戶能夠存儲和搜索向量（嵌入）並與Langchain和Llamaindex提供集成。但是，它們在建築上非常不同。 Chromadb是一個矢量數據庫，可以使用Docker在本地或服務器上部署，並將盡快提供託管解決方案。 Deep Lake是一家部署在用戶自己的雲上，本地或內存中的無服務器矢量商店。所有計算都運行客戶端，這使用戶能夠在幾秒鐘內支持輕型生產應用程序。與Chromadb不同，Deep Lake的數據格式除了嵌入外，還可以存儲圖像，視頻和文本等原始數據。 Chromadb僅限於嵌入在嵌入式上的光元數據，並且沒有可視化。深層湖數據集可以可視化並控製版本。 Deep Lake還設有一個表演劑數據加載程序，用於微調大型語言模型。

深湖與松果

深湖和Pinecone都使用戶能夠存儲和搜索矢量（嵌入）並與Langchain和Llamaindex提供集成。但是，它們在建築上非常不同。 Pinecone是一個完全管理的矢量數據庫，針對需要搜索數十億個向量的高度要求的應用程序進行了優化。深湖是無服務的。所有計算都運行客戶端，這使用戶能夠在幾秒鐘內開始啟動。與Pinecone不同，Deep Lake的數據格式除了嵌入外，還可以存儲圖像，視頻和文本等原始數據。深層湖數據集可以可視化並控製版本。 Pinecone僅限於嵌入式頂部的光元數據，並且沒有可視化。 Deep Lake還設有一個表演劑數據加載程序，用於微調大型語言模型。

深湖與編織

深湖和編織都使用戶能夠存儲和搜索向量（嵌入）並與Langchain和Llamaindex提供集成。但是，它們在建築上非常不同。編織是一個矢量數據庫，可以通過Kubernetes或Docker部署在託管服務中或用戶。深湖是無服務的。所有計算都運行客戶端，這使用戶能夠在幾秒鐘內支持輕型生產應用程序。與編織不同，除嵌入外，Deep Lake的數據格式還可以存儲原始數據，例如圖像，視頻和文本。深層湖數據集可以可視化並控製版本。編織僅限於嵌入在嵌入式頂部的光元數據，並且沒有可視化。 Deep Lake還設有一個表演劑數據加載程序，用於微調大型語言模型。

深湖與DVC

Deep Lake和DVC提供與數據類似於GIT的數據集版本控制，但它們存儲數據的方法有很大差異。 Deep Lake將數據轉換為塊狀壓縮陣列，可以快速流式傳輸到ML模型，而DVC在存儲在較不高效的傳統文件結構中的數據之上。當數據集由許多文件組成時，與DVC傳統文件結構相比，Deep Lake格式使數據集版本的版本非常容易（即，許多圖像）。另一個區別是DVC主要使用命令行界面，而深湖是Python套件。最後，Deep Lake提供了一個API，可輕鬆將數據集連接到ML框架和其他常見的ML工具，並通過Activeloop的可視化工具啟用即時數據集可視化。

深湖與Mosaicml MDS格式

數據存儲格式： Deep Lake以柱狀存儲格式運行，而MDS則採用了行式存儲方法。這從根本上影響了每個系統中讀取，編寫和組織數據的方式。
壓縮： Deep Lake提供了更靈活的壓縮方案，可以控制每個列或張量的塊級和样品級壓縮。此功能消除了諸如ZSTD之類的其他壓縮的需求，否則它將需要更多的CPU週期，以在JPEG等格式上進行解壓縮。
改組： MDS目前提供更高級的改組策略。
版本控制與可視化支持：深湖的一個顯著特徵是其本地版本控制和瀏覽器數據可視化，這是MosaiCML數據格式不存在的功能。這可以在管理，理解和跟踪數據的不同版本方面具有重大優勢。

深湖vs張量流數據集（TFD）

深湖和TFD無縫將流行的數據集連接到ML框架。深湖數據集與Pytorch和Tensorflow兼容，而TFD僅與張量兼容。深湖和TFD之間的一個關鍵區別在於，深湖數據集設計用於從雲中流式傳輸，而TFD必須在本地下載。結果，使用深湖，可以直接從TensorFlow數據集導入數據集並將其流式傳輸到Pytorch或Tensorflow。除了提供對流行的公開可用數據集訪問權限外，Deep Lake還提供了可創建自定義數據集，將其存儲在各種雲存儲提供商上的功能強大的工具，並通過簡單的API與他人合作。 TFD主要專注於讓公眾輕鬆訪問常用數據集，而自定義數據集的管理不是主要重點。可以在此處找到完整的比較文章。

深湖與擁抱面

Deep Lake和Huggingface可以訪問流行的數據集，但深湖主要關注計算機視覺，而Huggingface則側重於自然語言處理。 NLP的擁抱面變換和其他計算工具與Deep Lake提供的功能並不類似。

深湖與webdatasets

Deep Lake和WebDatasets都提供跨網絡的快速數據流。它們的蒸汽速度幾乎相同，因為基礎網絡請求和數據結構非常相似。但是，Deep Lake提供了卓越的隨機訪問和改組，其簡單的API在Python而不是命令行中，而Deep Lake可以簡單地對數據集進行索引和修改，而無需重新創建數據集。

深湖與扎爾

Deep Lake和Zarr都將數據存儲為塊狀陣列。但是，Deep Lake主要設計用於使用簡單的API作為數組返回數據，而不是實際存儲原始數組（即使這也是可能的）。 Deep Lake將數據存儲在用例優化的格式中，例如jpeg或for Images的PNG，或用於視頻的MP4，用戶將數據視為陣列，因為Deep Lake在兩者之間處理所有數據處理。 Deep Lake提供了更大的靈活性，可為具有動態形狀（破爛的張量）存儲陣列，並提供了幾個在Zarr中不可天的功能，例如版本控制，數據流以及將數據連接到ML Frameworks 。

社區

加入我們的Slack社區，使用Deep Lake了解有關非結構化數據集管理的更多信息，並獲得Activeloop團隊和其他用戶的幫助。

我們希望通過完成3分鐘的調查來喜歡您的反饋。

與往常一樣，感謝我們出色的貢獻者！

用貢獻者製成。

請閱讀貢獻。

讀書徽章

使用深湖？添加一個識別徽章讓所有人都知道：

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

免責聲明

數據集許可

深湖用戶可能可以訪問各種公開可用的數據集。我們不託管或分發這些數據集，保證其質量或公平性，或聲稱您已有使用數據集的許可證。您有責任確定您是否有權根據其許可使用數據集。

如果您是數據集所有者，並且不希望您的數據集包含在此庫中，請通過GitHub問題與您聯繫。感謝您對ML社區的貢獻！

使用跟踪

默認情況下，我們使用bugout收集使用數據（這是執行此操作的代碼）。除了匿名IP地址數據外，它不會收集用戶數據，並且僅記錄Deep Lake圖書館自己的操作。這有助於我們的團隊了解如何使用該工具以及如何構建對您重要的功能！在Activeloop註冊後，數據不再是匿名的。您始終可以通過將環境變量BUGGER_OFF設置為True來選擇退出報告：

引用

如果您在研究中使用深湖，請引用Activeloop使用：

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

致謝

這項技術的靈感來自我們在普林斯頓大學的研究工作。我們要感謝William Silversmith @Seunglab的雲量工具。

展開

附加信息

版本 v4.0.3
類型其他源碼
更新時間 2025-02-23
大小 56.75KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

其他源碼

1.0.0
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

其他源碼

1.0.0

相關資訊全部