Download de deeplake - Download de código fonte deeplake

deeplake

Outro código-fonte

v4.0.3

Baixar

Deep Lake: Banco de Dados para AI

Documentos • Comece • Referência da API • Curso Langchain & Vectordbs • Blog • Whitepaper • Slack • Twitter

O que é Deep Lake?

O Deep Lake é um banco de dados para IA alimentado por um formato de armazenamento otimizado para aplicações de aprendizado profundo. Deep Lake pode ser usado para:

Armazenando e pesquisando dados mais vetores durante a criação de aplicativos LLM
Gerenciando conjuntos de dados ao treinar modelos de aprendizado profundo

Deep Lake simplifies the deployment of enterprise-grade LLM-based products by offering storage for all data types (embeddings, audio, text, videos, images, dicom, pdfs, annotations, and more), querying and vector search, data streaming while training Modelos em escala, versão de dados e linhagem e integrações com ferramentas populares como Langchain, Llamaindex, pesos e vieses e muito mais. O Deep Lake trabalha com dados de qualquer tamanho, é sem servidor e permite armazenar todos os seus dados em sua própria nuvem e em um só lugar. Deep Lake é usado pela Intel, Bayer Radiology, Matterport, Zero Systems, Red Cruz, Yale e Oxford.

Deep Lake inclui os seguintes recursos:

Suporte de várias nuvens (S3, GCP, Azure)

Use uma API para fazer upload, baixar e transmitir conjuntos de dados de/para S3, Azure, GCP, ActiveLoop Cloud, armazenamento local ou armazenamento na memória. Compatível com qualquer armazenamento compatível com S3, como o Minio.

Compressão nativa com indexação preguiçosa do tipo Numpy

Armazene imagens, áudio e vídeos em sua compactação nativa. Fatiar, índice, iterado e interagir com seus dados, como uma coleção de matrizes numpy na memória do seu sistema. Deep Lake Lake carrega dados somente quando necessário, por exemplo, ao treinar um modelo ou executar consultas.

Dataloaders para estruturas populares de aprendizado profundo

Deep Lake vem com Dataloaders embutidos para Pytorch e Tensorflow. Treine seu modelo com algumas linhas de código - até cuidamos do conjunto de dados. :)

Integrações com ferramentas poderosas

O Deep Lake possui integrações com Langchain e Llandeindex como uma loja de vetores para aplicativos, pesos e vieses de LLM para a linhagem de dados durante o treinamento do modelo, a mmDetection for Training Detection Models e o MMSsegmentation para o treinamento de modelos de segmentação semântica.

Mais de 100 conjuntos de dados de imagem, vídeo e áudio mais populares disponíveis em segundos

A Deep Lake Community enviou mais de 100 conjuntos de dados de imagem, vídeo e áudio, como MNIST, Coco, Imagenet, Cifar, Gtzan e outros.

Suporte de visualização instantânea no aplicativo Deep Lake

Os conjuntos de dados Deep Lake são visualizados instantaneamente com caixas delimitadoras, máscaras, anotações etc. no Deep Lake Visualizer (veja abaixo).

Como instalar Deep Lake

Deep Lake pode ser instalado usando PIP:

pip install deeplake

Para acessar todos os recursos do Deep Lake, registre -se no App Deep Lake.

? Exemplos de código do lago Deep por aplicação

Aplicativos da loja de vetores

Usando Deep Lake como uma loja de vetores para a construção de aplicativos LLM:

- Vector Store QuickStart

- Tutoriais da loja de vetores

- Integração de Langchain

- Integração de Llandeindex

- Pesquisa de similaridade da imagem com Deep Lake

Aplicações de aprendizado profundo

Usando o Deep Lake para gerenciar dados enquanto treinava modelos de aprendizado profundo:

- Aprendizagem profunda Investir rápido

- Tutoriais para modelos de treinamento

Integrações

O Deep Lake oferece integrações com outras ferramentas para otimizar seus fluxos de trabalho de aprendizado profundo. As integrações atuais incluem:

Aplicativos LLM
- Use Deep Lake como uma loja de vetores para aplicativos LLM. Nossa integração combina a API do Langchain VectorStors com os conjuntos de dados Deep Lake como o armazenamento de dados subjacentes. A integração é um armazenamento vetorial sem servidor que pode ser implantado localmente ou em uma nuvem de sua escolha.

Documentação

Introdução Guias, exemplos, tutoriais, referência da API e outras informações úteis podem ser encontradas em nossa página de documentação.

? Para estudantes e educadores

Os usuários do Deep Lake podem acessar e visualizar uma variedade de conjuntos de dados populares através de uma integração gratuita com o aplicativo Deep Lake. As universidades podem obter até 1 TB de armazenamento de dados e 100.000 consultas mensais no banco de dados do Tensor gratuitamente por mês. Converse em nosso site: para reivindicar o acesso!

? ‍ Comparações com ferramentas familiares

Deep Lake vs Chroma

A Deep Lake e o Chromadb permite que os usuários armazenem e pesquisem vetores (incorporados) e ofereçam integrações com Langchain e Llamaindex. No entanto, eles são arquitetonicamente muito diferentes. O Chromadb é um banco de dados vetorial que pode ser implantado localmente ou em um servidor usando o Docker e oferecerá uma solução hospedada em breve. O Deep Lake é uma loja vetorial sem servidor implantada na própria nuvem do usuário, localmente ou na memória. Todos os cálculos executam o lado do cliente, o que permite que os usuários suportem aplicativos de produção leves em segundos. Ao contrário do Chromadb, o formato de dados de Deep Lake pode armazenar dados brutos, como imagens, vídeos e texto, além de incorporações. O Chromadb é limitado a metadados de luz sobre as incorporações e não possui visualização. Os conjuntos de dados Deep Lake podem ser visualizados e a versão controlada. O Deep Lake também possui um Dataloader Performant para ajustar seus grandes modelos de idiomas.

Deep Lake vs Pinecone

Tanto o Deep Lake quanto o Pinecone permitem aos usuários armazenar e pesquisar vetores (incorporados) e oferecer integrações com Langchain e Llamaindex. No entanto, eles são arquitetonicamente muito diferentes. O Pinecone é um banco de dados vetorial totalmente gerenciado que é otimizado para aplicativos altamente exigentes que exigem uma busca por bilhões de vetores. Deep Lake não tem servidor. Todos os cálculos são executados no lado do cliente, o que permite que os usuários iniciem em segundos. Ao contrário do Pinecone, o formato de dados de Deep Lake pode armazenar dados brutos, como imagens, vídeos e texto, além de incorporação. Os conjuntos de dados Deep Lake podem ser visualizados e a versão controlada. O Pinecone é limitado a metadados leves sobre as incorporações e não tem visualização. O Deep Lake também possui um Dataloader Performant para ajustar seus grandes modelos de idiomas.

Deep Lake vs Weaviate

Tanto o Deep Lake quanto o Weaviate permitem aos usuários armazenar e pesquisar vetores (incorporados) e oferecer integrações com Langchain e Llamaindex. No entanto, eles são arquitetonicamente muito diferentes. O Weaviate é um banco de dados vetorial que pode ser implantado em um serviço gerenciado ou pelo usuário via Kubernetes ou Docker. Deep Lake não tem servidor. Todos os cálculos executam o lado do cliente, o que permite que os usuários suportem aplicativos de produção leves em segundos. Ao contrário do formato de dados do Weaviate, o Deep Lake pode armazenar dados brutos, como imagens, vídeos e texto, além de incorporação. Os conjuntos de dados Deep Lake podem ser visualizados e a versão controlada. O teto é limitado a metadados de luz sobre as incorporações e não tem visualização. O Deep Lake também possui um Dataloader Performant para ajustar seus grandes modelos de idiomas.

Deep Lake vs DVC

O Deep Lake e o DVC oferecem controle de versão do conjunto de dados semelhante ao Git para dados, mas seus métodos para armazenar dados diferem significativamente. O Deep Lake converte e armazena dados como matrizes compactadas, o que permite o fluxo rápido para modelos de ML, enquanto o DVC opera no topo dos dados armazenados em estruturas tradicionais de arquivo tradicionais menos eficientes. O formato Deep Lake torna significativamente mais fácil a versão do conjunto de dados em comparação com as estruturas de arquivos tradicionais por DVC quando os conjuntos de dados são compostos de muitos arquivos (ou seja, muitas imagens). Uma distinção adicional é que o DVC usa principalmente uma interface da linha de comando, enquanto o Deep Lake é um pacote Python. Por fim, o Deep Lake oferece uma API para conectar facilmente conjuntos de dados às estruturas ML e outras ferramentas comuns de ML e permite a visualização instantânea do conjunto de dados através da ferramenta de visualização do ActiveLoop.

Formato Deep Lake vs Mosaicml MDS

Formato de armazenamento de dados: O Deep Lake opera em um formato de armazenamento colunar, enquanto o MDS utiliza uma abordagem de armazenamento em linha. Isso afeta fundamentalmente como os dados são lidos, escritos e organizados em cada sistema.
Compressão: Deep Lake oferece um esquema de compressão mais flexível, permitindo o controle sobre a compressão em nível de pedaços e de nível de amostra para cada coluna ou tensor. Esse recurso elimina a necessidade de compressões adicionais como o ZSTD, o que exigiria mais ciclos de CPU para descomprimir em cima de formatos como o JPEG.
Shuffling: Atualmente, o MDS oferece estratégias de embaralhamento mais avançadas.
Suporte de controle de versão e visualização: Um recurso notável do Deep Lake é seu controle de versão nativa e visualização de dados no navegador, um recurso não presente para o formato de dados em mosaico. Isso pode fornecer vantagens significativas no gerenciamento, compreensão e rastreamento de diferentes versões dos dados.

Deep Lake vs Tensorflow DataSets (TFDS)

Deep Lake e TFDs conectam perfeitamente conjuntos de dados populares às estruturas da ML. Os conjuntos de dados Deep Lake são compatíveis com Pytorch e Tensorflow, enquanto os TFDs são compatíveis apenas com o TensorFlow. Uma diferença importante entre Deep Lake e TFDs é que os conjuntos de dados Deep Lake são projetados para transmissão da nuvem, enquanto os TFDs devem ser baixados localmente antes do uso. Como resultado, com o Deep Lake, pode -se importar conjuntos de dados diretamente dos conjuntos de dados do TensorFlow e transmiti -los para Pytorch ou TensorFlow. Além de fornecer acesso a conjuntos de dados populares disponíveis ao público, o Deep Lake também oferece ferramentas poderosas para criar conjuntos de dados personalizados, armazenando -os em uma variedade de provedores de armazenamento em nuvem e colaborar com outras pessoas via API simples. O TFDS está focado principalmente em fornecer ao público fácil acesso a conjuntos de dados geralmente disponíveis, e o gerenciamento de conjuntos de dados personalizados não é o foco principal. Um artigo de comparação completo pode ser encontrado aqui.

Deep Lake vs Huggingface

Deep Lake e HuggingFace oferecem acesso a conjuntos de dados populares, mas o Deep Lake se concentra principalmente na visão computacional, enquanto o Huggingface se concentra no processamento de linguagem natural. Transformagens de HuggingFace e outras ferramentas computacionais para PNL não são análogas aos recursos oferecidos pela Deep Lake.

Deep Lake vs WebDatasets

Deep Lake e WebDatasets oferecem um fluxo rápido de dados entre as redes. Eles têm velocidades de vapor quase idênticas porque as solicitações de rede subjacentes e as estruturas de dados são muito semelhantes. No entanto, o Deep Lake oferece acesso aleatório e arrastamento superiores, sua API simples está em Python em vez de linha de comando, e o Deep Lake permite a indexação e modificação simples do conjunto de dados sem precisar recriá-lo.

Deep Lake vs Zarr

Deep Lake e Zarr oferecem armazenamento de dados como matrizes em grama. No entanto, o Deep Lake é projetado principalmente para retornar os dados como matrizes usando uma API simples, em vez de realmente armazenar matrizes cruas (mesmo que isso também seja possível). O Deep Lake armazena dados em formatos otimizados para uso em caso, como JPEG ou PNG para imagens, ou MP4 para vídeo, e o usuário trata os dados como se fosse uma matriz, porque o Deep Lake lida com todo o processamento de dados no meio. O Deep Lake oferece mais flexibilidade para armazenar matrizes com forma dinâmica (tensores irregulares) e fornece vários recursos que não estão disponíveis ingenuamente no Zarr, como controle de versão, transmissão de dados e conexão de dados às estruturas ML.

Comunidade

Junte -se à nossa comunidade Slack para saber mais sobre o gerenciamento de conjunto de dados não estruturado usando o Deep Lake e obter ajuda da equipe ActiveLoop e de outros usuários.

Adoraríamos seu feedback concluindo nossa pesquisa de 3 minutos.

Como sempre, graças aos nossos incríveis colaboradores!

Feito com colaboradores-img.

Por favor, leia contribuindo.md para começar a fazer contribuições para o Deep Lake.

Leia o crachá

Usando Deep Lake? Adicione um crachá de leitura para que todos saibam:

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

Isenções de responsabilidade

Licenças de dados

Os usuários do Deep Lake podem ter acesso a uma variedade de conjuntos de dados disponíveis ao público. Não hospedamos ou distribuímos esses conjuntos de dados, atestamos sua qualidade ou justiça ou afirmamos que você tem uma licença para usar os conjuntos de dados. É de sua responsabilidade determinar se você tem permissão para usar os conjuntos de dados sob a licença deles.

Se você é proprietário de um conjunto de dados e não deseja que seu conjunto de dados seja incluído nesta biblioteca, entre em contato através de um problema do GitHub. Obrigado por sua contribuição para a comunidade ML!

Rastreamento de uso

Por padrão, coletamos dados de uso usando Bugout (aqui está o código que o faz). Ele não coleta dados do usuário que não sejam dados de endereço IP anonimizado e apenas registra as próprias ações da Biblioteca Deep Lake. Isso ajuda nossa equipe a entender como a ferramenta é usada e como criar recursos que importam para você! Depois de se registrar no ActiveLoop, os dados não são mais anônimos. Você sempre pode optar por não participar de relatórios definindo uma variável ambiental BUGGER_OFF como True :

Citação

Se você usar o Deep Lake em sua pesquisa, cite o ActiveLoop usando:

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

Reconhecimento

Essa tecnologia foi inspirada em nosso trabalho de pesquisa na Universidade de Princeton. Gostaríamos de agradecer a William Silversmith @Seunglab por sua incrível ferramenta de volume de nuvem.

Expandir

Informações adicionais

Versão v4.0.3
Tipo Outro código-fonte
Data da Última Atualização 2025-02-23
tamanho 56.75KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos