Deep Lake est une base de données pour l'IA alimentée par un format de stockage optimisé pour les applications d'apprentissage en profondeur. Le lac profond peut être utilisé pour:
Deep Lake simplifie le déploiement de produits LLM de qualité d'entreprise en offrant un stockage pour tous les types de données (intégres, audio, texte, vidéos, images, DICOM, PDF, annotations, etc. Modèles à l'échelle, versioning de données et lignée et intégrations avec des outils populaires tels que Langchain, Llamaindex, poids et biais, et bien d'autres. Deep Lake travaille avec des données de toute taille, elle est sans serveur et vous permet de stocker toutes vos données dans votre propre cloud et en un seul endroit. Deep Lake est utilisé par Intel, Bayer Radiology, Matterport, Zero Systems, Croix-Rouge, Yale et Oxford.
Le lac profond peut être installé à l'aide de PIP:
pip install deeplakeUtilisation du lac Deep comme magasin vectoriel pour les applications LLM de construction:
Utilisation du lac Deep pour gérer les données lors de la formation des modèles d'apprentissage en profondeur:
Deep Lake propose des intégrations avec d'autres outils afin de rationaliser vos flux de travail en profondeur. Les intégrations actuelles comprennent:
Les guides de démarrage, les exemples, les tutoriels, la référence de l'API et d'autres informations utiles peuvent être trouvés sur notre page de documentation.
Les utilisateurs de Deep Lake peuvent accéder et visualiser une variété d'ensembles de données populaires grâce à une intégration gratuite avec l'application Deep Lake. Les universités peuvent obtenir jusqu'à 1 To de stockage de données et 100 000 requêtes mensuelles sur la base de données du tenseur gratuitement par mois. Discuter sur notre site Web: pour réclamer l'accès!
Deep Lake et Chromadb permettent aux utilisateurs de stocker et de rechercher des vecteurs (intégres) et d'offrir des intégrations avec Langchain et Llamaindex. Cependant, ils sont architecturaux très différents. ChromAdB est une base de données vectorielle qui peut être déployée localement ou sur un serveur à l'aide de Docker et offrira une solution hébergée sous peu. Deep Lake est un magasin vectoriel sans serveur déployé sur le cloud de l'utilisateur, localement ou en mémoire. Tous les calculs exécutent le côté client, ce qui permet aux utilisateurs de prendre en charge les applications de production légères en secondes. Contrairement à ChromAdb, le format de données de Deep Lake peut stocker des données brutes telles que les images, les vidéos et le texte, en plus des intégres. ChromAdB est limité aux métadonnées légères au-dessus des intérêts et n'a aucune visualisation. Les ensembles de données Deep Lake peuvent être visualisés et contrôlés par version. Deep Lake possède également un coader de données performant pour affiner vos modèles de grande langue.
Deep Lake et Pinecone permettent aux utilisateurs de stocker et de rechercher des vecteurs (intégres) et d'offrir des intégrations avec Langchain et Llamaindex. Cependant, ils sont architecturaux très différents. PineCone est une base de données vectorielle entièrement gérée qui est optimisée pour des applications très exigeantes nécessitant une recherche de milliards de vecteurs. Deep Lake est sans serveur. Tous les calculs exécutent le côté client, ce qui permet aux utilisateurs de démarrer en quelques secondes. Contrairement à Pinecone, le format de données de Deep Lake peut stocker des données brutes telles que les images, les vidéos et le texte, en plus des intégres. Les ensembles de données Deep Lake peuvent être visualisés et contrôlés par version. Pinecone est limité aux métadonnées légères au-dessus des intérêts et n'a aucune visualisation. Deep Lake possède également un coader de données performant pour affiner vos modèles de grande langue.
Deep Lake et Weavate permettent aux utilisateurs de stocker et de rechercher des vecteurs (intégres) et d'offrir des intégrations avec Langchain et Llamaindex. Cependant, ils sont architecturaux très différents. Weavate est une base de données vectorielle qui peut être déployée dans un service géré ou par l'utilisateur via Kubernetes ou Docker. Deep Lake est sans serveur. Tous les calculs exécutent le côté client, ce qui permet aux utilisateurs de prendre en charge les applications de production légères en secondes. Contrairement à WeAviate, le format de données de Deep Lake peut stocker des données brutes telles que les images, les vidéos et le texte, en plus des intérêts. Les ensembles de données Deep Lake peuvent être visualisés et contrôlés par version. Weavate est limité aux métadonnées légères au-dessus des intérêts et n'a aucune visualisation. Deep Lake possède également un coader de données performant pour affiner vos modèles de grande langue.
Deep Lake et DVC offrent un contrôle de version de l'ensemble de données similaire à Git pour les données, mais leurs méthodes de stockage de données diffèrent considérablement. Deep Lake convertit et stocke les données en tant que tableaux compressés parmena, ce qui permet un streaming rapide vers des modèles ML, tandis que DVC fonctionne au-dessus des données stockées dans des structures de fichiers traditionnelles moins efficaces. Le format Deep Lake facilite le versioning de données de données par rapport aux structures de fichiers traditionnelles par DVC lorsque les ensembles de données sont composés de nombreux fichiers (c'est-à-dire de nombreuses images). Une distinction supplémentaire est que DVC utilise principalement une interface de ligne de commande, tandis que Deep Lake est un package Python. Enfin, Deep Lake propose une API pour connecter facilement les ensembles de données aux cadres ML et à d'autres outils ML courants et permet une visualisation instantanée de l'ensemble de données via l'outil de visualisation d'ActiveLoop.
Deep Lake et TFDS connectent de manière transparente des ensembles de données populaires aux cadres ML. Les ensembles de données Deep Lake sont compatibles avec Pytorch et TensorFlow, tandis que les TFD ne sont compatibles qu'avec TensorFlow. Une différence clé entre Deep Lake et TFDS est que les ensembles de données Deep Lake sont conçus pour le streaming à partir du cloud, tandis que les TFD doivent être téléchargés localement avant utilisation. En conséquence, avec Deep Lake, on peut importer des ensembles de données directement à partir des ensembles de données TensorFlow et les diffuser en pytorch ou en tensorflow. En plus de donner accès à des ensembles de données populaires accessibles au public, Deep Lake propose également des outils puissants pour créer des ensembles de données personnalisés, les stocker sur une variété de fournisseurs de stockage cloud et collaborer avec d'autres via API simple. TFDS est principalement axé sur l'accès facile au public aux ensembles de données couramment disponibles, et la gestion des ensembles de données personnalisés n'est pas l'objectif principal. Un article complet de comparaison peut être trouvé ici.
Rejoignez notre communauté Slack pour en savoir plus sur la gestion des ensembles de données non structurés à l'aide du lac Deep et pour obtenir l'aide de l'équipe ActiveLoop et d'autres utilisateurs.
Nous aimerions vos commentaires en réalisant notre enquête de 3 minutes.
Comme toujours, grâce à nos incroyables contributeurs!
Fait avec des contributeurs-IMG.
Veuillez lire contribution.md pour commencer à apporter des contributions à Deep Lake.
Utiliser Deep Lake? Ajoutez un badge Readme pour informer tout le monde:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Les utilisateurs de Deep Lake peuvent avoir accès à une variété d'ensembles de données accessibles au public. Nous n'hébergeons ni ne distribuons pas ces ensembles de données, ne garantissons pas leur qualité ou leur équité, ni ne prétendons que vous avez une licence pour utiliser les ensembles de données. Il est de votre responsabilité de déterminer si vous avez la permission d'utiliser les ensembles de données sous leur licence.
Si vous êtes propriétaire d'un ensemble de données et que vous ne souhaitez pas que votre ensemble de données soit inclus dans cette bibliothèque, veuillez nous contacter via un problème GitHub. Merci pour votre contribution à la communauté ML!
Par défaut, nous collectons les données d'utilisation à l'aide de Bugout (voici le code qui le fait). Il ne collecte pas de données d'utilisateurs autres que les données d'adresse IP anonymisées, et elle enregistre uniquement les propres actions de la bibliothèque Deep Lake. Cela aide notre équipe à comprendre comment l'outil est utilisé et comment créer des fonctionnalités qui vous importent! Après vous être inscrit avec ActiveLoop, les données ne sont plus anonymes. Vous pouvez toujours désactiver les rapports en définissant une variable environnementale BUGGER_OFF sur True :
Si vous utilisez Deep Lake dans vos recherches, veuillez citer ActiveLoop en utilisant:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}Cette technologie a été inspirée par notre travail de recherche à l'Université de Princeton. Nous tenons à remercier William Silversmith @seungLab pour son impressionnant outil de volume cloud.