deeplake下载 - deeplake源代码下载

deeplake

其他源码

v4.0.3

下载

深湖：AI数据库

文档•入门• API参考• Langchain＆Vectordbs课程•博客•白皮书• Slack • Twitter

什么是深湖？

Deep Lake是AI的数据库，该数据库由为深度学习应用优化的存储格式提供动力。深湖可用于：

在构建LLM应用程序时存储和搜索数据以及向量
在培训深度学习模型时管理数据集

Deep Lake通过提供所有数据类型（嵌入，音频，文本，视频，图像，DICOM，DICOM，PDF，注释等），查询和矢量搜索，训练时，请在企业级基于LLM的产品中部署基于LLM的产品大规模的模型，数据版本和谱系，以及与兰班，llamaindex，权重和偏见等流行工具的集成。 Deep Lake可以使用任何大小的数据，它是无服务器的，它使您可以将所有数据存储在自己的云和一个地方。 Deep Lake由Intel，Bayer放射学，Matterport，零系统，红十字会，耶鲁大学和牛津使用。

深湖包括以下特征：

多云支持（S3，GCP，Azure）

使用一个API在S3，Azure，GCP，Activeloop Cloud，Local Storage或内存存储中上传，下载和流数据集上传，下载和流数据集。与任何与S3兼容的存储（例如Minio）兼容。

本机压缩带有懒惰的numpy状索引

将图像，音频和视频存储在其本机压缩中。切片，索引，迭代并与您的数据进行交互，就像系统内存中的numpy阵列集合一样。 Deep Lake Lazily仅在需要时，例如，在训练模型或运行查询时加载数据。

流行深度学习框架的数据加载器

Deep Lake配备了用于Pytorch和Tensorflow的内置数据加载器。用几行代码训练您的模型 - 我们甚至会照顾数据集改组。 :)

与强大的工具集成

Deep Lake与Langchain和Llamaindex的集成是LLM应用程序的矢量商店，在模型训练期间用于数据谱系的权重和偏见，用于训练对象检测模型的MMDeTection以及用于训练语义细分模型的MM分割。

100多个最受欢迎的图像，视频和音频数据集以秒为单位可用

Deep Lake社区上传了100多个图像，视频和音频数据集，例如MNIST，COCO，IMAGENET，CIFAR，GTZAN等。

Deep Lake应用中的即时可视化支持

深湖数据集可立即使用边界盒，口罩，注释等可视化。

如何安装深湖

可以使用PIP安装深湖：

pip install deeplake

要访问所有深湖的功能，请在深湖应用中注册。

？深层湖法规示例

向量商店应用

将深湖用作构建LLM应用的矢量商店：

-Vector Store Quickstart

- 矢量商店教程

- 兰链集成

- Llamaindex集成

- 与深湖的图像相似性搜索

深度学习应用

在训练深度学习模型的同时，使用深湖管理数据：

- 深度学习Quickstart

- 培训模型的教程

集成

Deep Lake提供与其他工具的集成，以简化您的深度学习工作流程。当前集成包括：

LLM应用程序
- 使用深湖作为LLM应用程序的矢量商店。我们的集成将Langchain VectorStores API与深湖数据集结合在一起，作为基础数据存储。集成是一个无服务器矢量存储，可以在本地或您选择的云中部署。

文档

入门指南，示例，教程，API参考和其他有用信息，请参见我们的文档页面。

？适用于学生和教育者

Deep Lake用户可以通过与Deep Lake的应用程序免费集成来访问和可视化各种受欢迎的数据集。大学每月免费在张量数据库上免费获得1TB的数据存储和100,000个每月查询。在我们的网站上聊天：要求访问！

？‍与熟悉的工具进行比较

深湖与色度

Deep Lake＆Chromadb都使用户能够存储和搜索向量（嵌入）并与Langchain和Llamaindex提供集成。但是，它们在建筑上非常不同。 Chromadb是一个矢量数据库，可以使用Docker在本地或服务器上部署，并将尽快提供托管解决方案。 Deep Lake是一家部署在用户自己的云上，本地或内存中的无服务器矢量商店。所有计算都运行客户端，这使用户能够在几秒钟内支持轻型生产应用程序。与Chromadb不同，Deep Lake的数据格式除了嵌入外，还可以存储图像，视频和文本等原始数据。 Chromadb仅限于嵌入在嵌入式上的光元数据，并且没有可视化。深层湖数据集可以可视化并控制版本。 Deep Lake还设有一个表演剂数据加载程序，用于微调大型语言模型。

深湖与松果

深湖和Pinecone都使用户能够存储和搜索矢量（嵌入）并与Langchain和Llamaindex提供集成。但是，它们在建筑上非常不同。 Pinecone是一个完全管理的矢量数据库，针对需要搜索数十亿个向量的高度要求的应用程序进行了优化。深湖是无服务的。所有计算都运行客户端，这使用户能够在几秒钟内开始启动。与Pinecone不同，Deep Lake的数据格式除了嵌入外，还可以存储图像，视频和文本等原始数据。深层湖数据集可以可视化并控制版本。 Pinecone仅限于嵌入式顶部的光元数据，并且没有可视化。 Deep Lake还设有一个表演剂数据加载程序，用于微调大型语言模型。

深湖与编织

深湖和编织都使用户能够存储和搜索向量（嵌入）并与Langchain和Llamaindex提供集成。但是，它们在建筑上非常不同。编织是一个矢量数据库，可以通过Kubernetes或Docker部署在托管服务中或用户。深湖是无服务的。所有计算都运行客户端，这使用户能够在几秒钟内支持轻型生产应用程序。与编织不同，除嵌入外，Deep Lake的数据格式还可以存储原始数据，例如图像，视频和文本。深层湖数据集可以可视化并控制版本。编织仅限于嵌入在嵌入式顶部的光元数据，并且没有可视化。 Deep Lake还设有一个表演剂数据加载程序，用于微调大型语言模型。

深湖与DVC

Deep Lake和DVC提供与数据类似于GIT的数据集版本控制，但它们存储数据的方法有很大差异。 Deep Lake将数据转换为块状压缩阵列，可以快速流式传输到ML模型，而DVC在存储在较不高效的传统文件结构中的数据之上。当数据集由许多文件组成时，与DVC传统文件结构相比，Deep Lake格式使数据集版本的版本非常容易（即，许多图像）。另一个区别是DVC主要使用命令行界面，而深湖是Python套件。最后，Deep Lake提供了一个API，可轻松将数据集连接到ML框架和其他常见的ML工具，并通过Activeloop的可视化工具启用即时数据集可视化。

深湖与Mosaicml MDS格式

数据存储格式： Deep Lake以柱状存储格式运行，而MDS则采用了行式存储方法。这从根本上影响了每个系统中读取，编写和组织数据的方式。
压缩： Deep Lake提供了更灵活的压缩方案，可以控制每个列或张量的块级和样品级压缩。此功能消除了诸如ZSTD之类的其他压缩的需求，否则它将需要更多的CPU周期，以在JPEG等格式上进行解压缩。
改组： MDS目前提供更高级的改组策略。
版本控制与可视化支持：深湖的一个显着特征是其本地版本控制和浏览器数据可视化，这是MosaiCML数据格式不存在的功能。这可以在管理，理解和跟踪数据的不同版本方面具有重大优势。

深湖vs张量流数据集（TFD）

深湖和TFD无缝将流行的数据集连接到ML框架。深湖数据集与Pytorch和Tensorflow兼容，而TFD仅与张量兼容。深湖和TFD之间的一个关键区别在于，深湖数据集设计用于从云中流式传输，而TFD必须在本地下载。结果，使用深湖，可以直接从TensorFlow数据集导入数据集并将其流式传输到Pytorch或Tensorflow。除了提供对流行的公开可用数据集访问权限外，Deep Lake还提供了可创建自定义数据集，将其存储在各种云存储提供商上的功能强大的工具，并通过简单的API与他人合作。 TFD主要专注于让公众轻松访问常用数据集，而自定义数据集的管理不是主要重点。可以在此处找到完整的比较文章。

深湖与拥抱面

Deep Lake和Huggingface可以访问流行的数据集，但深湖主要关注计算机视觉，而Huggingface则侧重于自然语言处理。 NLP的拥抱面变换和其他计算工具与Deep Lake提供的功能并不类似。

深湖与webdatasets

Deep Lake和WebDatasets都提供跨网络的快速数据流。它们的蒸汽速度几乎相同，因为基础网络请求和数据结构非常相似。但是，Deep Lake提供了卓越的随机访问和改组，其简单的API在Python而不是命令行中，而Deep Lake可以简单地对数据集进行索引和修改，而无需重新创建数据集。

深湖与扎尔

Deep Lake和Zarr都将数据存储为块状阵列。但是，Deep Lake主要设计用于使用简单的API作为数组返回数据，而不是实际存储原始数组（即使这也是可能的）。 Deep Lake将数据存储在用例优化的格式中，例如jpeg或for Images的PNG，或用于视频的MP4，用户将数据视为阵列，因为Deep Lake在两者之间处理所有数据处理。 Deep Lake提供了更大的灵活性，可为具有动态形状（破烂的张量）存储阵列，并提供了几个在Zarr中不可天的功能，例如版本控制，数据流以及将数据连接到ML Frameworks。

社区

加入我们的Slack社区，使用Deep Lake了解有关非结构化数据集管理的更多信息，并获得Activeloop团队和其他用户的帮助。

我们希望通过完成3分钟的调查来喜欢您的反馈。

与往常一样，感谢我们出色的贡献者！

用贡献者制成。

请阅读贡献。

读书徽章

使用深湖？添加一个识别徽章让所有人都知道：

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

免责声明

数据集许可

深湖用户可能可以访问各种公开可用的数据集。我们不托管或分发这些数据集，保证其质量或公平性，或声称您已有使用数据集的许可证。您有责任确定您是否有权根据其许可使用数据集。

如果您是数据集所有者，并且不希望您的数据集包含在此库中，请通过GitHub问题与您联系。感谢您对ML社区的贡献！

使用跟踪

默认情况下，我们使用bugout收集使用数据（这是执行此操作的代码）。除了匿名IP地址数据外，它不会收集用户数据，并且仅记录Deep Lake图书馆自己的操作。这有助于我们的团队了解如何使用该工具以及如何构建对您重要的功能！在Activeloop注册后，数据不再是匿名的。您始终可以通过将环境变量BUGGER_OFF设置为True来选择退出报告：

引用

如果您在研究中使用深湖，请引用Activeloop使用：

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

致谢

这项技术的灵感来自我们在普林斯顿大学的研究工作。我们要感谢William Silversmith @Seunglab的云量工具。

展开

附加信息

版本 v4.0.3
类型其他源码
更新时间 2025-02-23
大小 56.75KB
来自于 Github