Deep Lake es una base de datos para IA alimentada por un formato de almacenamiento optimizado para aplicaciones de aprendizaje profundo. Deep Lake se puede usar para:
Deep Lake simplifica la implementación de productos basados en LLM de grado empresarial al ofrecer almacenamiento para todos los tipos de datos (incrustaciones, audio, texto, videos, imágenes, DICOM, PDFS, anotaciones y más), consulta y búsqueda de vectores, transmisión de datos mientras capacita Modelos a escala, versiones de datos y linaje, e integraciones con herramientas populares como Langchain, Llamaindex, pesos y sesgos, y muchos más. Deep Lake funciona con datos de cualquier tamaño, no tiene servidor y le permite almacenar todos sus datos en su propia nube y en un solo lugar. Deep Lake es utilizado por Intel, Bayer Radiology, Matterport, Zero Systems, Red Cross, Yale y Oxford.
Deep Lake se puede instalar usando PIP:
pip install deeplakeUso de Deep Lake como una tienda vectorial para aplicaciones LLM de construcción:
Uso de Deep Lake para administrar datos mientras capacita modelos de aprendizaje profundo:
Deep Lake ofrece integraciones con otras herramientas para racionalizar sus flujos de trabajo de aprendizaje profundo. Las integraciones actuales incluyen:
Se puede encontrar guías iniciales, ejemplos, tutoriales, referencia de API y otra información útil en nuestra página de documentación.
Los usuarios de Deep Lake pueden acceder y visualizar una variedad de conjuntos de datos populares a través de una integración gratuita con la aplicación Deep Lake. Las universidades pueden obtener hasta 1 TB de almacenamiento de datos y 100,000 consultas mensuales en la base de datos Tensor de forma gratuita por mes. Chatea en nuestro sitio web: ¡para reclamar el acceso!
Tanto Deep Lake como ChromadB permiten a los usuarios almacenar y buscar vectores (incrustaciones) y ofrecer integraciones con Langchain y Llamaindex. Sin embargo, son arquitectónicamente muy diferentes. ChromAdB es una base de datos vectorial que se puede implementar localmente o en un servidor usando Docker y ofrecerá una solución alojada en breve. Deep Lake es una tienda vectorial sin servidor implementada en la nube propia del usuario, localmente o en memoria. Todos los cálculos ejecutan el lado del cliente, lo que permite a los usuarios admitir aplicaciones de producción livianas en segundos. A diferencia de ChromAdB, el formato de datos de Deep Lake puede almacenar datos sin procesar como imágenes, videos y texto, además de incrustaciones. ChromAdB se limita a metadatos ligeros en la parte superior de los incrustaciones y no tiene visualización. Los conjuntos de datos de Deep Lake se pueden visualizar y controlar la versión. Deep Lake también tiene un dataloader de performance para ajustar sus modelos de idiomas grandes.
Tanto Deep Lake como Pinecone permiten a los usuarios almacenar y buscar vectores (incrustaciones) y ofrecer integraciones con Langchain y Llamaindex. Sin embargo, son arquitectónicamente muy diferentes. Pinecone es una base de datos vectorial totalmente administrada que está optimizada para aplicaciones altamente exigentes que requieren una búsqueda de miles de millones de vectores. Deep Lake no tiene servidor. Todos los cálculos ejecutan el lado del cliente, lo que permite a los usuarios comenzar en segundos. A diferencia de Pinecone, el formato de datos de Deep Lake puede almacenar datos sin procesar como imágenes, videos y texto, además de incrustaciones. Los conjuntos de datos de Deep Lake se pueden visualizar y controlar la versión. Pinecone se limita a metadatos de luz en la parte superior de los incrustaciones y no tiene visualización. Deep Lake también tiene un dataloader de performance para ajustar sus modelos de idiomas grandes.
Tanto Deep Lake como Weaviate permiten a los usuarios almacenar y buscar vectores (incrustaciones) y ofrecer integraciones con Langchain y Llamaindex. Sin embargo, son arquitectónicamente muy diferentes. Weaviate es una base de datos vectorial que se puede implementar en un servicio administrado o por el usuario a través de Kubernetes o Docker. Deep Lake no tiene servidor. Todos los cálculos ejecutan el lado del cliente, lo que permite a los usuarios admitir aplicaciones de producción livianas en segundos. A diferencia de Weaviate, el formato de datos de Deep Lake puede almacenar datos sin procesar como imágenes, videos y texto, además de incrustaciones. Los conjuntos de datos de Deep Lake se pueden visualizar y controlar la versión. Weaviate se limita a metadatos de luz en la parte superior de los incrustaciones y no tiene visualización. Deep Lake también tiene un dataloader de performance para ajustar sus modelos de idiomas grandes.
Deep Lake y DVC ofrecen control de versión del conjunto de datos similar al GIT para los datos, pero sus métodos para almacenar datos difieren significativamente. Deep Lake convierte y almacena los datos como matrices comprimidas en forma, lo que permite una transmisión rápida a modelos ML, mientras que DVC funciona además de los datos almacenados en estructuras de archivos tradicionales menos eficientes. El formato de lago Deep hace que el conjunto de datos de datos sea significativamente más fácil en comparación con las estructuras de archivos tradicionales por DVC, cuando los conjuntos de datos están compuestos de muchos archivos (es decir, muchas imágenes). Una distinción adicional es que DVC utiliza principalmente una interfaz de línea de comandos, mientras que Deep Lake es un paquete Python. Por último, Deep Lake ofrece una API para conectar fácilmente los conjuntos de datos a los marcos ML y otras herramientas comunes de ML y permite la visualización de conjuntos de datos instantáneos a través de la herramienta de visualización de Activeloop.
Deep Lake y TFDS conectan sin problemas los conjuntos de datos populares a los marcos ML. Los conjuntos de datos de los lagos profundos son compatibles con Pytorch y Tensorflow, mientras que los TFD solo son compatibles con TensorFlow. Una diferencia clave entre Deep Lake y TFDS es que los conjuntos de datos de Deep Lake están diseñados para la transmisión desde la nube, mientras que los TFD deben descargarse localmente antes de su uso. Como resultado, con Deep Lake, uno puede importar conjuntos de datos directamente desde conjuntos de datos TensorFlow y transmitirlos a Pytorch o TensorFlow. Además de proporcionar acceso a conjuntos de datos populares disponibles públicamente, Deep Lake también ofrece herramientas potentes para crear conjuntos de datos personalizados, almacenarlos en una variedad de proveedores de almacenamiento en la nube y colaborar con otros a través de una API simple. TFDS se centra principalmente en dar al público fácil acceso a conjuntos de datos comúnmente disponibles, y la administración de conjuntos de datos personalizados no es el enfoque principal. Se puede encontrar un artículo de comparación completo aquí.
Únase a nuestra comunidad Slack para obtener más información sobre la gestión de conjuntos de datos no estructurados utilizando Deep Lake y obtener ayuda del equipo de Activeloop y otros usuarios.
Nos encantaría sus comentarios completando nuestra encuesta de 3 minutos.
Como siempre, ¡gracias a nuestros increíbles contribuyentes!
Hecho con contribuyentes-IMG.
Lea Contriping.MD para comenzar a hacer contribuciones a Deep Lake.
¿Usando Deep Lake? Agregue una insignia de lectura para que todos sepan:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Los usuarios de Deep Lake pueden tener acceso a una variedad de conjuntos de datos disponibles públicamente. No alojamos ni distribuimos estos conjuntos de datos, respondemos por su calidad o equidad, ni afirmamos que tiene una licencia para usar los conjuntos de datos. Es su responsabilidad determinar si tiene permiso para usar los conjuntos de datos bajo su licencia.
Si es propietario de un conjunto de datos y no desea que su conjunto de datos se incluya en esta biblioteca, póngase en contacto con un problema de GitHub. ¡Gracias por su contribución a la comunidad ML!
Por defecto, recopilamos datos de uso usando Bugout (aquí está el código que lo hace). No recopila datos de usuario que no sean datos de dirección IP anónima, y solo registra las propias acciones de la Biblioteca Deep Lake. ¡Esto ayuda a nuestro equipo a comprender cómo se usa la herramienta y cómo construir características que le importen! Después de registrarse en Activeloop, los datos ya no son anónimos. Siempre puede optar por no participar estableciendo una variable ambiental BUGGER_OFF a True :
Si usa Deep Lake en su investigación, cite ActiveLoop usando:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}Esta tecnología se inspiró en nuestro trabajo de investigación en la Universidad de Princeton. Nos gustaría agradecer a William Silversmith @seunglab por su increíble herramienta de volumen en la nube.