Deep Lake是AI的数据库,该数据库由为深度学习应用优化的存储格式提供动力。深湖可用于:
Deep Lake通过提供所有数据类型(嵌入,音频,文本,视频,图像,DICOM,DICOM,PDF,注释等),查询和矢量搜索,训练时,请在企业级基于LLM的产品中部署基于LLM的产品大规模的模型,数据版本和谱系,以及与兰班,llamaindex,权重和偏见等流行工具的集成。 Deep Lake可以使用任何大小的数据,它是无服务器的,它使您可以将所有数据存储在自己的云和一个地方。 Deep Lake由Intel,Bayer放射学,Matterport,零系统,红十字会,耶鲁大学和牛津使用。
可以使用PIP安装深湖:
pip install deeplake将深湖用作构建LLM应用的矢量商店:
在训练深度学习模型的同时,使用深湖管理数据:
Deep Lake提供与其他工具的集成,以简化您的深度学习工作流程。当前集成包括:
入门指南,示例,教程,API参考和其他有用信息,请参见我们的文档页面。
Deep Lake用户可以通过与Deep Lake的应用程序免费集成来访问和可视化各种受欢迎的数据集。大学每月免费在张量数据库上免费获得1TB的数据存储和100,000个每月查询。在我们的网站上聊天:要求访问!
Deep Lake&Chromadb都使用户能够存储和搜索向量(嵌入)并与Langchain和Llamaindex提供集成。但是,它们在建筑上非常不同。 Chromadb是一个矢量数据库,可以使用Docker在本地或服务器上部署,并将尽快提供托管解决方案。 Deep Lake是一家部署在用户自己的云上,本地或内存中的无服务器矢量商店。所有计算都运行客户端,这使用户能够在几秒钟内支持轻型生产应用程序。与Chromadb不同,Deep Lake的数据格式除了嵌入外,还可以存储图像,视频和文本等原始数据。 Chromadb仅限于嵌入在嵌入式上的光元数据,并且没有可视化。深层湖数据集可以可视化并控制版本。 Deep Lake还设有一个表演剂数据加载程序,用于微调大型语言模型。
深湖和Pinecone都使用户能够存储和搜索矢量(嵌入)并与Langchain和Llamaindex提供集成。但是,它们在建筑上非常不同。 Pinecone是一个完全管理的矢量数据库,针对需要搜索数十亿个向量的高度要求的应用程序进行了优化。深湖是无服务的。所有计算都运行客户端,这使用户能够在几秒钟内开始启动。与Pinecone不同,Deep Lake的数据格式除了嵌入外,还可以存储图像,视频和文本等原始数据。深层湖数据集可以可视化并控制版本。 Pinecone仅限于嵌入式顶部的光元数据,并且没有可视化。 Deep Lake还设有一个表演剂数据加载程序,用于微调大型语言模型。
深湖和编织都使用户能够存储和搜索向量(嵌入)并与Langchain和Llamaindex提供集成。但是,它们在建筑上非常不同。编织是一个矢量数据库,可以通过Kubernetes或Docker部署在托管服务中或用户。深湖是无服务的。所有计算都运行客户端,这使用户能够在几秒钟内支持轻型生产应用程序。与编织不同,除嵌入外,Deep Lake的数据格式还可以存储原始数据,例如图像,视频和文本。深层湖数据集可以可视化并控制版本。编织仅限于嵌入在嵌入式顶部的光元数据,并且没有可视化。 Deep Lake还设有一个表演剂数据加载程序,用于微调大型语言模型。
Deep Lake和DVC提供与数据类似于GIT的数据集版本控制,但它们存储数据的方法有很大差异。 Deep Lake将数据转换为块状压缩阵列,可以快速流式传输到ML模型,而DVC在存储在较不高效的传统文件结构中的数据之上。当数据集由许多文件组成时,与DVC传统文件结构相比,Deep Lake格式使数据集版本的版本非常容易(即,许多图像)。另一个区别是DVC主要使用命令行界面,而深湖是Python套件。最后,Deep Lake提供了一个API,可轻松将数据集连接到ML框架和其他常见的ML工具,并通过Activeloop的可视化工具启用即时数据集可视化。
深湖和TFD无缝将流行的数据集连接到ML框架。深湖数据集与Pytorch和Tensorflow兼容,而TFD仅与张量兼容。深湖和TFD之间的一个关键区别在于,深湖数据集设计用于从云中流式传输,而TFD必须在本地下载。结果,使用深湖,可以直接从TensorFlow数据集导入数据集并将其流式传输到Pytorch或Tensorflow。除了提供对流行的公开可用数据集访问权限外,Deep Lake还提供了可创建自定义数据集,将其存储在各种云存储提供商上的功能强大的工具,并通过简单的API与他人合作。 TFD主要专注于让公众轻松访问常用数据集,而自定义数据集的管理不是主要重点。可以在此处找到完整的比较文章。
加入我们的Slack社区,使用Deep Lake了解有关非结构化数据集管理的更多信息,并获得Activeloop团队和其他用户的帮助。
我们希望通过完成3分钟的调查来喜欢您的反馈。
与往常一样,感谢我们出色的贡献者!
用贡献者制成。
请阅读贡献。
使用深湖?添加一个识别徽章让所有人都知道:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) 深湖用户可能可以访问各种公开可用的数据集。我们不托管或分发这些数据集,保证其质量或公平性,或声称您已有使用数据集的许可证。您有责任确定您是否有权根据其许可使用数据集。
如果您是数据集所有者,并且不希望您的数据集包含在此库中,请通过GitHub问题与您联系。感谢您对ML社区的贡献!
默认情况下,我们使用bugout收集使用数据(这是执行此操作的代码)。除了匿名IP地址数据外,它不会收集用户数据,并且仅记录Deep Lake图书馆自己的操作。这有助于我们的团队了解如何使用该工具以及如何构建对您重要的功能!在Activeloop注册后,数据不再是匿名的。您始终可以通过将环境变量BUGGER_OFF设置为True来选择退出报告:
如果您在研究中使用深湖,请引用Activeloop使用:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}这项技术的灵感来自我们在普林斯顿大学的研究工作。我们要感谢William Silversmith @Seunglab的云量工具。