Téléchargement deeplake - Téléchargement du code source deeplake

deeplake

Autre code source

v4.0.3

Télécharger

Lac profond: base de données pour l'IA

Docs • Commencez • Référence de l'API • Cours Langchain & Vectordbs • Blog • Livre blanche • Slack • Twitter

Qu'est-ce que Deep Lake?

Deep Lake est une base de données pour l'IA alimentée par un format de stockage optimisé pour les applications d'apprentissage en profondeur. Le lac profond peut être utilisé pour:

Stockage et recherche de données plus vecteurs lors de la construction d'applications LLM
Gérer les ensembles de données tout en formant des modèles d'apprentissage en profondeur

Deep Lake simplifie le déploiement de produits LLM de qualité d'entreprise en offrant un stockage pour tous les types de données (intégres, audio, texte, vidéos, images, DICOM, PDF, annotations, etc. Modèles à l'échelle, versioning de données et lignée et intégrations avec des outils populaires tels que Langchain, Llamaindex, poids et biais, et bien d'autres. Deep Lake travaille avec des données de toute taille, elle est sans serveur et vous permet de stocker toutes vos données dans votre propre cloud et en un seul endroit. Deep Lake est utilisé par Intel, Bayer Radiology, Matterport, Zero Systems, Croix-Rouge, Yale et Oxford.

Deep Lake comprend les caractéristiques suivantes:

Support multi-cloud (S3, GCP, Azure)

Utilisez une API pour télécharger, télécharger et diffuser des ensembles de données vers / depuis S3, Azure, GCP, Cloud ActivEloop, stockage local ou stockage en mémoire. Compatible avec tout stockage compatible S3 tel que Minio.

Compression native avec indexation de type Numpy paresseux

Stockez les images, l'audio et les vidéos dans leur compression native. Tranchez, index, itération et interagissez avec vos données comme une collection de tableaux Numpy dans la mémoire de votre système. Deep Lake charge paresseusement les données uniquement en cas de besoin, par exemple, lors de la formation d'un modèle ou de l'exécution de requêtes.

Dataloaders pour les cadres populaires en profondeur

Deep Lake est livré avec des obstacles de données intégrés pour Pytorch et TensorFlow. Formez votre modèle avec quelques lignes de code - nous nous occupons même des mélanges de données. :)

Intégrations avec des outils puissants

Deep Lake a des intégrations avec Langchain et Llamaindex en tant que magasin vectoriel pour les applications LLM, les poids et les biais pour la lignée de données lors de la formation des modèles, le MMDETECTION pour les modèles de détection d'objets d'entraînement et le MMSegmentation pour la formation de modèles de segmentation sémantique.

Plus de 100 ensembles de données d'image, de vidéo et audio les plus populaires disponibles en secondes

Deep Lake Community a téléchargé plus de 100 ensembles de données d'image, vidéo et audio comme MNIST, Coco, ImageNet, Cifar, GTZAN et autres.

Support de visualisation instantanée dans l'application Deep Lake

Les ensembles de données Deep Lake sont instantanément visualisés avec des boîtes de délimitation, des masques, des annotations, etc. dans le visualiseur de lac Deep (voir ci-dessous).

Comment installer Deep Lake

Le lac profond peut être installé à l'aide de PIP:

pip install deeplake

Pour accéder à toutes les fonctionnalités de Deep Lake, veuillez vous inscrire dans l'application Deep Lake.

? Exemples de code du lac Deep par application

Applications de magasin vectoriel

Utilisation du lac Deep comme magasin vectoriel pour les applications LLM de construction:

- magasin vectoriel QuickStart

- Tutoriels de magasin vectoriel

- Intégration de Langchain

- Intégration Llamaindex

- Recherche de similitude d'image avec Deep Lake

Applications d'apprentissage en profondeur

Utilisation du lac Deep pour gérer les données lors de la formation des modèles d'apprentissage en profondeur:

- Apprentissage en profondeur QuickStart

- Tutoriels pour les modèles de formation

Intégrations

Deep Lake propose des intégrations avec d'autres outils afin de rationaliser vos flux de travail en profondeur. Les intégrations actuelles comprennent:

Applications LLM
- Utilisez Deep Lake comme magasin vectoriel pour les applications LLM. Notre intégration combine l'API Langchain VectorStores avec des ensembles de données Deep Lake comme stockage de données sous-jacentes. L'intégration est un magasin de vecteur sans serveur qui peut être déployé localement ou dans un nuage de votre choix.

Documentation

Les guides de démarrage, les exemples, les tutoriels, la référence de l'API et d'autres informations utiles peuvent être trouvés sur notre page de documentation.

? Pour les étudiants et les éducateurs

Les utilisateurs de Deep Lake peuvent accéder et visualiser une variété d'ensembles de données populaires grâce à une intégration gratuite avec l'application Deep Lake. Les universités peuvent obtenir jusqu'à 1 To de stockage de données et 100 000 requêtes mensuelles sur la base de données du tenseur gratuitement par mois. Discuter sur notre site Web: pour réclamer l'accès!

? ‍ Comparaisons avec des outils familiers

Lac profond vs chroma

Deep Lake et Chromadb permettent aux utilisateurs de stocker et de rechercher des vecteurs (intégres) et d'offrir des intégrations avec Langchain et Llamaindex. Cependant, ils sont architecturaux très différents. ChromAdB est une base de données vectorielle qui peut être déployée localement ou sur un serveur à l'aide de Docker et offrira une solution hébergée sous peu. Deep Lake est un magasin vectoriel sans serveur déployé sur le cloud de l'utilisateur, localement ou en mémoire. Tous les calculs exécutent le côté client, ce qui permet aux utilisateurs de prendre en charge les applications de production légères en secondes. Contrairement à ChromAdb, le format de données de Deep Lake peut stocker des données brutes telles que les images, les vidéos et le texte, en plus des intégres. ChromAdB est limité aux métadonnées légères au-dessus des intérêts et n'a aucune visualisation. Les ensembles de données Deep Lake peuvent être visualisés et contrôlés par version. Deep Lake possède également un coader de données performant pour affiner vos modèles de grande langue.

Lac profond vs pinone

Deep Lake et Pinecone permettent aux utilisateurs de stocker et de rechercher des vecteurs (intégres) et d'offrir des intégrations avec Langchain et Llamaindex. Cependant, ils sont architecturaux très différents. PineCone est une base de données vectorielle entièrement gérée qui est optimisée pour des applications très exigeantes nécessitant une recherche de milliards de vecteurs. Deep Lake est sans serveur. Tous les calculs exécutent le côté client, ce qui permet aux utilisateurs de démarrer en quelques secondes. Contrairement à Pinecone, le format de données de Deep Lake peut stocker des données brutes telles que les images, les vidéos et le texte, en plus des intégres. Les ensembles de données Deep Lake peuvent être visualisés et contrôlés par version. Pinecone est limité aux métadonnées légères au-dessus des intérêts et n'a aucune visualisation. Deep Lake possède également un coader de données performant pour affiner vos modèles de grande langue.

Lac profond vs weavate

Deep Lake et Weavate permettent aux utilisateurs de stocker et de rechercher des vecteurs (intégres) et d'offrir des intégrations avec Langchain et Llamaindex. Cependant, ils sont architecturaux très différents. Weavate est une base de données vectorielle qui peut être déployée dans un service géré ou par l'utilisateur via Kubernetes ou Docker. Deep Lake est sans serveur. Tous les calculs exécutent le côté client, ce qui permet aux utilisateurs de prendre en charge les applications de production légères en secondes. Contrairement à WeAviate, le format de données de Deep Lake peut stocker des données brutes telles que les images, les vidéos et le texte, en plus des intérêts. Les ensembles de données Deep Lake peuvent être visualisés et contrôlés par version. Weavate est limité aux métadonnées légères au-dessus des intérêts et n'a aucune visualisation. Deep Lake possède également un coader de données performant pour affiner vos modèles de grande langue.

Lake Deep vs DVC

Deep Lake et DVC offrent un contrôle de version de l'ensemble de données similaire à Git pour les données, mais leurs méthodes de stockage de données diffèrent considérablement. Deep Lake convertit et stocke les données en tant que tableaux compressés parmena, ce qui permet un streaming rapide vers des modèles ML, tandis que DVC fonctionne au-dessus des données stockées dans des structures de fichiers traditionnelles moins efficaces. Le format Deep Lake facilite le versioning de données de données par rapport aux structures de fichiers traditionnelles par DVC lorsque les ensembles de données sont composés de nombreux fichiers (c'est-à-dire de nombreuses images). Une distinction supplémentaire est que DVC utilise principalement une interface de ligne de commande, tandis que Deep Lake est un package Python. Enfin, Deep Lake propose une API pour connecter facilement les ensembles de données aux cadres ML et à d'autres outils ML courants et permet une visualisation instantanée de l'ensemble de données via l'outil de visualisation d'ActiveLoop.

Format Deep Lake vs Mosaicml MDS

Format de stockage de données: Deep Lake fonctionne sur un format de stockage en colonnes, tandis que MDS utilise une approche de stockage par ligne. Cela a un impact fondamentalement sur la façon dont les données sont lues, écrites et organisées dans chaque système.
Compression: Deep Lake offre un schéma de compression plus flexible, permettant le contrôle de la compression au niveau des morceaux et au niveau de l'échantillon pour chaque colonne ou tenseur. Cette fonctionnalité élimine le besoin de compressions supplémentaires comme ZSTD, ce qui exigerait autrement plus de cycles de CPU pour la décompression au-dessus des formats comme JPEG.
Magasin: MDS propose actuellement des stratégies de mélange plus avancées.
Contrôle de version et prise en charge de la visualisation: Une caractéristique notable de Deep Lake est son contrôle de version natif et sa visualisation des données de navigateur, une fonctionnalité non présente pour le format de données MOSAICML. Cela peut fournir des avantages importants dans la gestion, la compréhension et le suivi différentes versions des données.

Ensembles de données Deep Lake vs TensorFlow (TFDS)

Deep Lake et TFDS connectent de manière transparente des ensembles de données populaires aux cadres ML. Les ensembles de données Deep Lake sont compatibles avec Pytorch et TensorFlow, tandis que les TFD ne sont compatibles qu'avec TensorFlow. Une différence clé entre Deep Lake et TFDS est que les ensembles de données Deep Lake sont conçus pour le streaming à partir du cloud, tandis que les TFD doivent être téléchargés localement avant utilisation. En conséquence, avec Deep Lake, on peut importer des ensembles de données directement à partir des ensembles de données TensorFlow et les diffuser en pytorch ou en tensorflow. En plus de donner accès à des ensembles de données populaires accessibles au public, Deep Lake propose également des outils puissants pour créer des ensembles de données personnalisés, les stocker sur une variété de fournisseurs de stockage cloud et collaborer avec d'autres via API simple. TFDS est principalement axé sur l'accès facile au public aux ensembles de données couramment disponibles, et la gestion des ensembles de données personnalisés n'est pas l'objectif principal. Un article complet de comparaison peut être trouvé ici.

Lac profond vs étreint

Deep Lake et Huggingface offrent un accès aux ensembles de données populaires, mais Deep Lake se concentre principalement sur la vision par ordinateur, tandis que HuggingFace se concentre sur le traitement du langage naturel. Les transformations à câlins et d'autres outils de calcul pour la PNL ne sont pas analogues aux fonctionnalités proposées par Deep Lake.

Lac profond vs webdatasets

Deep Lake et les webDatasets offrent tous deux un streaming de données rapide sur les réseaux. Ils ont des vitesses de vapeur presque identiques car les demandes de réseau sous-jacentes et les structures de données sont très similaires. Cependant, Deep Lake offre un accès aléatoire supérieur et un mélange, son API simple est dans Python au lieu de la ligne de commande, et Deep Lake permet une indexation et une modification simples de l'ensemble de données sans avoir à le recréer.

Lac profond vs zarr

Deep Lake et Zarr offrent tous deux le stockage de données sous forme de tableaux de morceaux. Cependant, Deep Lake est principalement conçu pour renvoyer les données comme des tableaux en utilisant une API simple, plutôt que de stocker réellement des tableaux bruts (même si cela est également possible). Deep Lake stocke les données dans les formats optimisés par des cas d'utilisation, tels que JPEG ou PNG pour les images, ou MP4 pour la vidéo, et l'utilisateur traite les données comme s'il s'agissait d'un tableau, car Deep Lake gère tous les traitements de données entre les deux. Deep Lake offre plus de flexibilité pour le stockage des tableaux avec une forme dynamique (tenseurs en lambeaux), et il fournit plusieurs fonctionnalités qui ne sont pas naïvement disponibles dans Zarr telles que le contrôle de version, le streaming de données et la connexion des données aux frameworks ML.

Communauté

Rejoignez notre communauté Slack pour en savoir plus sur la gestion des ensembles de données non structurés à l'aide du lac Deep et pour obtenir l'aide de l'équipe ActiveLoop et d'autres utilisateurs.

Nous aimerions vos commentaires en réalisant notre enquête de 3 minutes.

Comme toujours, grâce à nos incroyables contributeurs!

Fait avec des contributeurs-IMG.

Veuillez lire contribution.md pour commencer à apporter des contributions à Deep Lake.

Badge réadme

Utiliser Deep Lake? Ajoutez un badge Readme pour informer tout le monde:

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

Avertissement

Licences d'ensemble de données

Les utilisateurs de Deep Lake peuvent avoir accès à une variété d'ensembles de données accessibles au public. Nous n'hébergeons ni ne distribuons pas ces ensembles de données, ne garantissons pas leur qualité ou leur équité, ni ne prétendons que vous avez une licence pour utiliser les ensembles de données. Il est de votre responsabilité de déterminer si vous avez la permission d'utiliser les ensembles de données sous leur licence.

Si vous êtes propriétaire d'un ensemble de données et que vous ne souhaitez pas que votre ensemble de données soit inclus dans cette bibliothèque, veuillez nous contacter via un problème GitHub. Merci pour votre contribution à la communauté ML!

Suivi de l'utilisation

Par défaut, nous collectons les données d'utilisation à l'aide de Bugout (voici le code qui le fait). Il ne collecte pas de données d'utilisateurs autres que les données d'adresse IP anonymisées, et elle enregistre uniquement les propres actions de la bibliothèque Deep Lake. Cela aide notre équipe à comprendre comment l'outil est utilisé et comment créer des fonctionnalités qui vous importent! Après vous être inscrit avec ActiveLoop, les données ne sont plus anonymes. Vous pouvez toujours désactiver les rapports en définissant une variable environnementale BUGGER_OFF sur True :

Citation

Si vous utilisez Deep Lake dans vos recherches, veuillez citer ActiveLoop en utilisant:

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

Reconnaissance

Cette technologie a été inspirée par notre travail de recherche à l'Université de Princeton. Nous tenons à remercier William Silversmith @seungLab pour son impressionnant outil de volume cloud.

Développer

Informations supplémentaires

Version v4.0.3
Type Autre code source
Date de mise à jour 2025-02-23
taille 56.75KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout