Descarga de deeplake - Descarga del código fuente deeplake

deeplake

Otro código fuente

v4.0.3

Descargar

Deep Lake: base de datos para AI

Docios • Comenzar • Referencia de API • Curso de Langchain & Vectordbs • Blog • Whitepaper • Slack • Twitter

¿Qué es Deep Lake?

Deep Lake es una base de datos para IA alimentada por un formato de almacenamiento optimizado para aplicaciones de aprendizaje profundo. Deep Lake se puede usar para:

Almacenamiento y búsqueda de datos más vectores mientras construye aplicaciones LLM
Administrar conjuntos de datos mientras capacita modelos de aprendizaje profundo

Deep Lake simplifica la implementación de productos basados en LLM de grado empresarial al ofrecer almacenamiento para todos los tipos de datos (incrustaciones, audio, texto, videos, imágenes, DICOM, PDFS, anotaciones y más), consulta y búsqueda de vectores, transmisión de datos mientras capacita Modelos a escala, versiones de datos y linaje, e integraciones con herramientas populares como Langchain, Llamaindex, pesos y sesgos, y muchos más. Deep Lake funciona con datos de cualquier tamaño, no tiene servidor y le permite almacenar todos sus datos en su propia nube y en un solo lugar. Deep Lake es utilizado por Intel, Bayer Radiology, Matterport, Zero Systems, Red Cross, Yale y Oxford.

Deep Lake incluye las siguientes características:

Soporte de múltiples nubes (S3, GCP, Azure)

Use una API para cargar, descargar y transmitir conjuntos de datos a/desde S3, Azure, GCP, ActiveLoop Cloud, Storage Local o Storage in Memory. Compatible con cualquier almacenamiento compatible con S3 como Minio.

Compresión nativa con indexación perezosa de forma numpy

Almacene imágenes, audio y videos en su compresión nativa. Reduzca, indexe, itera e interactúe con sus datos como una colección de matrices numpy en la memoria de su sistema. Deep Lake Lazily carga datos solo cuando sea necesario, por ejemplo, al entrenar un modelo o consultas en ejecución.

Dataloaders para marcos populares de aprendizaje profundo

Deep Lake viene con dataloaders incorporados para Pytorch y TensorFlow. Entrene a su modelo con algunas líneas de código: incluso nos encargamos del juego de datos. :)

Integraciones con herramientas poderosas

Deep Lake tiene integraciones con Langchain y Llamaindex como una tienda vectorial para aplicaciones LLM, pesos y sesgos para el linaje de datos durante el entrenamiento de modelos, MMDetection para modelos de detección de objetos de entrenamiento y segmentación de MM para entrenamiento de modelos de segmentación semántica.

Más de 100 conjuntos de datos de imagen, video y audio más populares disponibles en segundos

Deep Lake Community ha subido más de 100 conjuntos de datos de imágenes, video y audio como Mnist, Coco, Imagenet, Cifar, Gtzan y otros.

Soporte de visualización instantánea en la aplicación Deep Lake

Los conjuntos de datos de los lagos profundos se visualizan instantáneamente con cajas limitadas, máscaras, anotaciones, etc. en Deep Lake Visualizer (ver más abajo).

Cómo instalar Deep Lake

Deep Lake se puede instalar usando PIP:

pip install deeplake

Para acceder a todas las características de Deep Lake, regístrese en la aplicación Deep Lake.

? Ejemplos de código de lago profundo por aplicación

Aplicaciones de la tienda vectorial

Uso de Deep Lake como una tienda vectorial para aplicaciones LLM de construcción:

- Vector Store QuickStart

- Tutoriales de la tienda vectorial

- Integración de Langchain

- Integración de llameAindex

- Búsqueda de similitud de imagen con Deep Lake

Aplicaciones de aprendizaje profundo

Uso de Deep Lake para administrar datos mientras capacita modelos de aprendizaje profundo:

- Aprendizaje profundo rápido

- Tutoriales para modelos de entrenamiento

Integración

Deep Lake ofrece integraciones con otras herramientas para racionalizar sus flujos de trabajo de aprendizaje profundo. Las integraciones actuales incluyen:

Aplicaciones LLM
- Use Deep Lake como una tienda vectorial para aplicaciones LLM. Nuestra integración combina la API LangChain VectorStors con conjuntos de datos de Deep Lake como el almacenamiento de datos subyacente. La integración es una tienda vectorial sin servidor que se puede implementar localmente o en una nube de su elección.

Documentación

Se puede encontrar guías iniciales, ejemplos, tutoriales, referencia de API y otra información útil en nuestra página de documentación.

? Para estudiantes y educadores

Los usuarios de Deep Lake pueden acceder y visualizar una variedad de conjuntos de datos populares a través de una integración gratuita con la aplicación Deep Lake. Las universidades pueden obtener hasta 1 TB de almacenamiento de datos y 100,000 consultas mensuales en la base de datos Tensor de forma gratuita por mes. Chatea en nuestro sitio web: ¡para reclamar el acceso!

? ‍ Comparaciones con herramientas familiares

Deep Lake vs Chroma

Tanto Deep Lake como ChromadB permiten a los usuarios almacenar y buscar vectores (incrustaciones) y ofrecer integraciones con Langchain y Llamaindex. Sin embargo, son arquitectónicamente muy diferentes. ChromAdB es una base de datos vectorial que se puede implementar localmente o en un servidor usando Docker y ofrecerá una solución alojada en breve. Deep Lake es una tienda vectorial sin servidor implementada en la nube propia del usuario, localmente o en memoria. Todos los cálculos ejecutan el lado del cliente, lo que permite a los usuarios admitir aplicaciones de producción livianas en segundos. A diferencia de ChromAdB, el formato de datos de Deep Lake puede almacenar datos sin procesar como imágenes, videos y texto, además de incrustaciones. ChromAdB se limita a metadatos ligeros en la parte superior de los incrustaciones y no tiene visualización. Los conjuntos de datos de Deep Lake se pueden visualizar y controlar la versión. Deep Lake también tiene un dataloader de performance para ajustar sus modelos de idiomas grandes.

Deep Lake vs Pinecone

Tanto Deep Lake como Pinecone permiten a los usuarios almacenar y buscar vectores (incrustaciones) y ofrecer integraciones con Langchain y Llamaindex. Sin embargo, son arquitectónicamente muy diferentes. Pinecone es una base de datos vectorial totalmente administrada que está optimizada para aplicaciones altamente exigentes que requieren una búsqueda de miles de millones de vectores. Deep Lake no tiene servidor. Todos los cálculos ejecutan el lado del cliente, lo que permite a los usuarios comenzar en segundos. A diferencia de Pinecone, el formato de datos de Deep Lake puede almacenar datos sin procesar como imágenes, videos y texto, además de incrustaciones. Los conjuntos de datos de Deep Lake se pueden visualizar y controlar la versión. Pinecone se limita a metadatos de luz en la parte superior de los incrustaciones y no tiene visualización. Deep Lake también tiene un dataloader de performance para ajustar sus modelos de idiomas grandes.

Deep Lake vs Weaviate

Tanto Deep Lake como Weaviate permiten a los usuarios almacenar y buscar vectores (incrustaciones) y ofrecer integraciones con Langchain y Llamaindex. Sin embargo, son arquitectónicamente muy diferentes. Weaviate es una base de datos vectorial que se puede implementar en un servicio administrado o por el usuario a través de Kubernetes o Docker. Deep Lake no tiene servidor. Todos los cálculos ejecutan el lado del cliente, lo que permite a los usuarios admitir aplicaciones de producción livianas en segundos. A diferencia de Weaviate, el formato de datos de Deep Lake puede almacenar datos sin procesar como imágenes, videos y texto, además de incrustaciones. Los conjuntos de datos de Deep Lake se pueden visualizar y controlar la versión. Weaviate se limita a metadatos de luz en la parte superior de los incrustaciones y no tiene visualización. Deep Lake también tiene un dataloader de performance para ajustar sus modelos de idiomas grandes.

Deep Lake vs DVC

Deep Lake y DVC ofrecen control de versión del conjunto de datos similar al GIT para los datos, pero sus métodos para almacenar datos difieren significativamente. Deep Lake convierte y almacena los datos como matrices comprimidas en forma, lo que permite una transmisión rápida a modelos ML, mientras que DVC funciona además de los datos almacenados en estructuras de archivos tradicionales menos eficientes. El formato de lago Deep hace que el conjunto de datos de datos sea significativamente más fácil en comparación con las estructuras de archivos tradicionales por DVC, cuando los conjuntos de datos están compuestos de muchos archivos (es decir, muchas imágenes). Una distinción adicional es que DVC utiliza principalmente una interfaz de línea de comandos, mientras que Deep Lake es un paquete Python. Por último, Deep Lake ofrece una API para conectar fácilmente los conjuntos de datos a los marcos ML y otras herramientas comunes de ML y permite la visualización de conjuntos de datos instantáneos a través de la herramienta de visualización de Activeloop.

Formato de MDS de Deep Lake vs MOSAICML

Formato de almacenamiento de datos: Deep Lake opera en un formato de almacenamiento columnar, mientras que MDS utiliza un enfoque de almacenamiento en cima. Esto afecta fundamentalmente cómo se leen, escriben y organizan datos en cada sistema.
Compresión: Deep Lake ofrece un esquema de compresión más flexible, lo que permite el control sobre la compresión de nivel de trozo y de nivel de muestra para cada columna o tensor. Esta característica elimina la necesidad de compresiones adicionales como ZSTD, lo que de otro modo exigiría más ciclos de CPU para descomprimir sobre formatos como JPEG.
CHUFFLING: MDS actualmente ofrece estrategias de barajamiento más avanzadas.
Control de versiones y soporte de visualización: una característica notable de Deep Lake es su control de versiones nativas y su visualización de datos en el navegador, una característica que no está presente para el formato de datos MOSAICML. Esto puede proporcionar ventajas significativas en la gestión, comprensión y seguimiento de diferentes versiones de los datos.

Deep Lake vs TensorFlow DataSets (TFDS)

Deep Lake y TFDS conectan sin problemas los conjuntos de datos populares a los marcos ML. Los conjuntos de datos de los lagos profundos son compatibles con Pytorch y Tensorflow, mientras que los TFD solo son compatibles con TensorFlow. Una diferencia clave entre Deep Lake y TFDS es que los conjuntos de datos de Deep Lake están diseñados para la transmisión desde la nube, mientras que los TFD deben descargarse localmente antes de su uso. Como resultado, con Deep Lake, uno puede importar conjuntos de datos directamente desde conjuntos de datos TensorFlow y transmitirlos a Pytorch o TensorFlow. Además de proporcionar acceso a conjuntos de datos populares disponibles públicamente, Deep Lake también ofrece herramientas potentes para crear conjuntos de datos personalizados, almacenarlos en una variedad de proveedores de almacenamiento en la nube y colaborar con otros a través de una API simple. TFDS se centra principalmente en dar al público fácil acceso a conjuntos de datos comúnmente disponibles, y la administración de conjuntos de datos personalizados no es el enfoque principal. Se puede encontrar un artículo de comparación completo aquí.

Deep Lake vs Huggingface

Deep Lake y Huggingface ofrecen acceso a conjuntos de datos populares, pero Deep Lake se centra principalmente en la visión por computadora, mientras que Huggingface se centra en el procesamiento del lenguaje natural. Las transformaciones de Huggingface y otras herramientas computacionales para PNL no son análogos a las características ofrecidas por Deep Lake.

Deep Lake vs WebDatasets

Deep Lake y WebDatasets ofrecen transmisión de datos rápidos en redes. Tienen velocidades de vapor casi idénticas porque las solicitudes de red subyacentes y las estructuras de datos son muy similares. Sin embargo, Deep Lake ofrece un acceso aleatorio superior y barajando, su API simple está en Python en lugar de la línea de comandos, y Deep Lake permite una indexación y modificación simples del conjunto de datos sin tener que recrearlo.

Deep Lake vs Zarr

Deep Lake y Zarr ofrecen almacenamiento de datos como matrices fragmentadas. Sin embargo, Deep Lake está diseñado principalmente para devolver datos como matrices que usan una API simple, en lugar de almacenar matrices sin procesar (aunque eso también es posible). Deep Lake almacena datos en formatos optimizados con casos de uso, como JPEG o PNG para imágenes, o MP4 para video, y el usuario trata los datos como si fuera una matriz, porque Deep Lake maneja todo el procesamiento de datos en el medio. Deep Lake ofrece más flexibilidad para almacenar matrices con forma dinámica (tensores irregulares), y proporciona varias características que no están ingenuamente disponibles en Zarr, como control de versiones, transmisión de datos y datos de conexión a marcos ML.

Comunidad

Únase a nuestra comunidad Slack para obtener más información sobre la gestión de conjuntos de datos no estructurados utilizando Deep Lake y obtener ayuda del equipo de Activeloop y otros usuarios.

Nos encantaría sus comentarios completando nuestra encuesta de 3 minutos.

Como siempre, ¡gracias a nuestros increíbles contribuyentes!

Hecho con contribuyentes-IMG.

Lea Contriping.MD para comenzar a hacer contribuciones a Deep Lake.

Insignia de readme

¿Usando Deep Lake? Agregue una insignia de lectura para que todos sepan:

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

Renuncias

Licencias de conjunto de datos

Los usuarios de Deep Lake pueden tener acceso a una variedad de conjuntos de datos disponibles públicamente. No alojamos ni distribuimos estos conjuntos de datos, respondemos por su calidad o equidad, ni afirmamos que tiene una licencia para usar los conjuntos de datos. Es su responsabilidad determinar si tiene permiso para usar los conjuntos de datos bajo su licencia.

Si es propietario de un conjunto de datos y no desea que su conjunto de datos se incluya en esta biblioteca, póngase en contacto con un problema de GitHub. ¡Gracias por su contribución a la comunidad ML!

Seguimiento de uso

Por defecto, recopilamos datos de uso usando Bugout (aquí está el código que lo hace). No recopila datos de usuario que no sean datos de dirección IP anónima, y solo registra las propias acciones de la Biblioteca Deep Lake. ¡Esto ayuda a nuestro equipo a comprender cómo se usa la herramienta y cómo construir características que le importen! Después de registrarse en Activeloop, los datos ya no son anónimos. Siempre puede optar por no participar estableciendo una variable ambiental BUGGER_OFF a True :

Citación

Si usa Deep Lake en su investigación, cite ActiveLoop usando:

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

Reconocimiento

Esta tecnología se inspiró en nuestro trabajo de investigación en la Universidad de Princeton. Nos gustaría agradecer a William Silversmith @seunglab por su increíble herramienta de volumen en la nube.

Expandir

Información adicional

Versión v4.0.3
Tipo Otro código fuente
Fecha de actualización 2025-02-23
tamaño 56.75KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo