O Deep Lake é um banco de dados para IA alimentado por um formato de armazenamento otimizado para aplicações de aprendizado profundo. Deep Lake pode ser usado para:
Deep Lake simplifies the deployment of enterprise-grade LLM-based products by offering storage for all data types (embeddings, audio, text, videos, images, dicom, pdfs, annotations, and more), querying and vector search, data streaming while training Modelos em escala, versão de dados e linhagem e integrações com ferramentas populares como Langchain, Llamaindex, pesos e vieses e muito mais. O Deep Lake trabalha com dados de qualquer tamanho, é sem servidor e permite armazenar todos os seus dados em sua própria nuvem e em um só lugar. Deep Lake é usado pela Intel, Bayer Radiology, Matterport, Zero Systems, Red Cruz, Yale e Oxford.
Deep Lake pode ser instalado usando PIP:
pip install deeplakeUsando Deep Lake como uma loja de vetores para a construção de aplicativos LLM:
Usando o Deep Lake para gerenciar dados enquanto treinava modelos de aprendizado profundo:
O Deep Lake oferece integrações com outras ferramentas para otimizar seus fluxos de trabalho de aprendizado profundo. As integrações atuais incluem:
Introdução Guias, exemplos, tutoriais, referência da API e outras informações úteis podem ser encontradas em nossa página de documentação.
Os usuários do Deep Lake podem acessar e visualizar uma variedade de conjuntos de dados populares através de uma integração gratuita com o aplicativo Deep Lake. As universidades podem obter até 1 TB de armazenamento de dados e 100.000 consultas mensais no banco de dados do Tensor gratuitamente por mês. Converse em nosso site: para reivindicar o acesso!
A Deep Lake e o Chromadb permite que os usuários armazenem e pesquisem vetores (incorporados) e ofereçam integrações com Langchain e Llamaindex. No entanto, eles são arquitetonicamente muito diferentes. O Chromadb é um banco de dados vetorial que pode ser implantado localmente ou em um servidor usando o Docker e oferecerá uma solução hospedada em breve. O Deep Lake é uma loja vetorial sem servidor implantada na própria nuvem do usuário, localmente ou na memória. Todos os cálculos executam o lado do cliente, o que permite que os usuários suportem aplicativos de produção leves em segundos. Ao contrário do Chromadb, o formato de dados de Deep Lake pode armazenar dados brutos, como imagens, vídeos e texto, além de incorporações. O Chromadb é limitado a metadados de luz sobre as incorporações e não possui visualização. Os conjuntos de dados Deep Lake podem ser visualizados e a versão controlada. O Deep Lake também possui um Dataloader Performant para ajustar seus grandes modelos de idiomas.
Tanto o Deep Lake quanto o Pinecone permitem aos usuários armazenar e pesquisar vetores (incorporados) e oferecer integrações com Langchain e Llamaindex. No entanto, eles são arquitetonicamente muito diferentes. O Pinecone é um banco de dados vetorial totalmente gerenciado que é otimizado para aplicativos altamente exigentes que exigem uma busca por bilhões de vetores. Deep Lake não tem servidor. Todos os cálculos são executados no lado do cliente, o que permite que os usuários iniciem em segundos. Ao contrário do Pinecone, o formato de dados de Deep Lake pode armazenar dados brutos, como imagens, vídeos e texto, além de incorporação. Os conjuntos de dados Deep Lake podem ser visualizados e a versão controlada. O Pinecone é limitado a metadados leves sobre as incorporações e não tem visualização. O Deep Lake também possui um Dataloader Performant para ajustar seus grandes modelos de idiomas.
Tanto o Deep Lake quanto o Weaviate permitem aos usuários armazenar e pesquisar vetores (incorporados) e oferecer integrações com Langchain e Llamaindex. No entanto, eles são arquitetonicamente muito diferentes. O Weaviate é um banco de dados vetorial que pode ser implantado em um serviço gerenciado ou pelo usuário via Kubernetes ou Docker. Deep Lake não tem servidor. Todos os cálculos executam o lado do cliente, o que permite que os usuários suportem aplicativos de produção leves em segundos. Ao contrário do formato de dados do Weaviate, o Deep Lake pode armazenar dados brutos, como imagens, vídeos e texto, além de incorporação. Os conjuntos de dados Deep Lake podem ser visualizados e a versão controlada. O teto é limitado a metadados de luz sobre as incorporações e não tem visualização. O Deep Lake também possui um Dataloader Performant para ajustar seus grandes modelos de idiomas.
O Deep Lake e o DVC oferecem controle de versão do conjunto de dados semelhante ao Git para dados, mas seus métodos para armazenar dados diferem significativamente. O Deep Lake converte e armazena dados como matrizes compactadas, o que permite o fluxo rápido para modelos de ML, enquanto o DVC opera no topo dos dados armazenados em estruturas tradicionais de arquivo tradicionais menos eficientes. O formato Deep Lake torna significativamente mais fácil a versão do conjunto de dados em comparação com as estruturas de arquivos tradicionais por DVC quando os conjuntos de dados são compostos de muitos arquivos (ou seja, muitas imagens). Uma distinção adicional é que o DVC usa principalmente uma interface da linha de comando, enquanto o Deep Lake é um pacote Python. Por fim, o Deep Lake oferece uma API para conectar facilmente conjuntos de dados às estruturas ML e outras ferramentas comuns de ML e permite a visualização instantânea do conjunto de dados através da ferramenta de visualização do ActiveLoop.
Deep Lake e TFDs conectam perfeitamente conjuntos de dados populares às estruturas da ML. Os conjuntos de dados Deep Lake são compatíveis com Pytorch e Tensorflow, enquanto os TFDs são compatíveis apenas com o TensorFlow. Uma diferença importante entre Deep Lake e TFDs é que os conjuntos de dados Deep Lake são projetados para transmissão da nuvem, enquanto os TFDs devem ser baixados localmente antes do uso. Como resultado, com o Deep Lake, pode -se importar conjuntos de dados diretamente dos conjuntos de dados do TensorFlow e transmiti -los para Pytorch ou TensorFlow. Além de fornecer acesso a conjuntos de dados populares disponíveis ao público, o Deep Lake também oferece ferramentas poderosas para criar conjuntos de dados personalizados, armazenando -os em uma variedade de provedores de armazenamento em nuvem e colaborar com outras pessoas via API simples. O TFDS está focado principalmente em fornecer ao público fácil acesso a conjuntos de dados geralmente disponíveis, e o gerenciamento de conjuntos de dados personalizados não é o foco principal. Um artigo de comparação completo pode ser encontrado aqui.
Junte -se à nossa comunidade Slack para saber mais sobre o gerenciamento de conjunto de dados não estruturado usando o Deep Lake e obter ajuda da equipe ActiveLoop e de outros usuários.
Adoraríamos seu feedback concluindo nossa pesquisa de 3 minutos.
Como sempre, graças aos nossos incríveis colaboradores!
Feito com colaboradores-img.
Por favor, leia contribuindo.md para começar a fazer contribuições para o Deep Lake.
Usando Deep Lake? Adicione um crachá de leitura para que todos saibam:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Os usuários do Deep Lake podem ter acesso a uma variedade de conjuntos de dados disponíveis ao público. Não hospedamos ou distribuímos esses conjuntos de dados, atestamos sua qualidade ou justiça ou afirmamos que você tem uma licença para usar os conjuntos de dados. É de sua responsabilidade determinar se você tem permissão para usar os conjuntos de dados sob a licença deles.
Se você é proprietário de um conjunto de dados e não deseja que seu conjunto de dados seja incluído nesta biblioteca, entre em contato através de um problema do GitHub. Obrigado por sua contribuição para a comunidade ML!
Por padrão, coletamos dados de uso usando Bugout (aqui está o código que o faz). Ele não coleta dados do usuário que não sejam dados de endereço IP anonimizado e apenas registra as próprias ações da Biblioteca Deep Lake. Isso ajuda nossa equipe a entender como a ferramenta é usada e como criar recursos que importam para você! Depois de se registrar no ActiveLoop, os dados não são mais anônimos. Você sempre pode optar por não participar de relatórios definindo uma variável ambiental BUGGER_OFF como True :
Se você usar o Deep Lake em sua pesquisa, cite o ActiveLoop usando:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}Essa tecnologia foi inspirada em nosso trabalho de pesquisa na Universidade de Princeton. Gostaríamos de agradecer a William Silversmith @Seunglab por sua incrível ferramenta de volume de nuvem.