Скачать deeplake - Скачать исходный код deeplake

deeplake

Другой исходный код

v4.0.3

Скачать

Глубокое озеро: база данных для ИИ

Документы • Начало работы • Ссылка на API • Курс Langchain & Vectordbs • Блог • Белый документ • Slack • Twitter

Что такое глубокое озеро?

Deep Lake-это база данных для ИИ, работающего в форме хранения, оптимизированного для приложений глубокого обучения. Глубокое озеро можно использовать для:

Хранение и поиск данных плюс векторы при создании приложений LLM
Управление наборами данных при обучении моделей глубокого обучения

Deep Lake упрощает развертывание продуктов LLM на основе корпоративного класса, предлагая хранилище для всех типов данных (Entiou, Audio, Text, Videos, изображения, DICOM, PDFS, аннотации и многое другое), запросы и поиск векторов, потоковое движение данных во время обучения. Модели в масштабе, управление версиями данных и родословную, а также интеграции с популярными инструментами, такими как Langchain, LmamainDex, Weights & Mizees и многие другие. Deep Lake работает с данными любого размера, оно без сервера, и позволяет вам хранить все данные в вашем собственном облаке и в одном месте. Глубокое озеро используется Intel, Bayer Radiology, Matterport, Zero Systems, Красный Крест, Йельский университет и Оксфорд.

Глубокое озеро включает в себя следующие функции:

Поддержка с несколькими облаками (S3, GCP, Azure)

Используйте один API для загрузки, загрузки и потоковой передачи данных на/из S3, Azure, GCP, ActiveLoop Cloud, локального хранилища или в памяти. Совместим с любым S3-совместимым хранилищем, таким как Minio.

Нативное сжатие с ленивым носоподобным индексацией

Храните изображения, аудио и видео в их родном сжатии. Нарежьте, индексируйте, используйте и взаимодействуйте с вашими данными, как набор массивов Numpy в памяти вашей системы. Глубокое озеро лениво загружает данные только при необходимости, например, при обучении модели или запуска запросов.

DataLoaders для популярных рамок глубокого обучения

Deep Lake поставляется со встроенными DataLoaders для Pytorch и Tensorflow. Обучите свою модель несколькими строками кода - мы даже позаботимся о перетасовке наборов данных. :)

Интеграции с мощными инструментами

Deep Lake имеет интеграцию с Langchain и LmamainDex в качестве векторного хранилища для приложений LLM, веса и смещений для линии данных во время обучения моделей, MMDetection для моделей обнаружения объектов и MMSegentation для обучения моделей семантической сегментации.

100+ наиболее популярных наборов данных изображения, видео и аудио

Сообщество Deep Lake загрузило более 100 наборов данных изображений, видео и аудио, таких как Mnist, Coco, ImageNet, Cifar, Gtzan и другие.

Мгновенная поддержка визуализации в приложении Deep Lake

Наборы данных о глубоком озере мгновенно визуализируются с ограничительными коробками, масками, аннотациями и т. Д. В Deep Lake Visualizer (см. Ниже).

Как установить глубокое озеро

Глубокое озеро можно установить с помощью PIP:

pip install deeplake

Чтобы получить доступ ко всем функциям Deep Lake, зарегистрируйтесь в приложении Deep Lake.

? Примеры кода глубокого озера по применению

Приложения векторного магазина

Использование Deep Lake в качестве векторного магазина для строительства применений LLM:

- Vector Store QuickStart

- Учебные пособия по вектору магазина

- Интеграция Langchain

- Интеграция LmamainDex

- Поиск сходства изображений с глубоким озером

Глубокие приложения для обучения

Использование Deep Lake для управления данными при обучении моделей глубокого обучения:

- Deep Learning QuickStart

- Учебные пособия по тренировочным моделям

Интеграции

Deep Lake предлагает интеграцию с другими инструментами, чтобы упростить ваши рабочие процессы глубокого обучения. Текущие интеграции включают:

Приложения LLM
- Используйте Deep Lake в качестве векторного магазина для приложений LLM. Наша интеграция объединяет API API Langchain Vectorstores с наборами данных Deep Lake в качестве базового хранения данных. Интеграция - это векторный хранилище без сервера, который можно развернуть локально или в облаке по вашему выбору.

Документация

Начало работы, примеры, учебные пособия, ссылка API и другая полезная информация можно найти на нашей странице документации.

? Для студентов и преподавателей

Пользователи Deep Lake могут получить доступ и визуализировать множество популярных наборов данных с помощью бесплатной интеграции с приложением Deep Lake. Университеты могут получить до 1 ТБ хранилища данных и 100 000 ежемесячных запросов в базе данных Tensor бесплатно в месяц. Поговорите на нашем веб -сайте: чтобы получить доступ!

? ‍ Сравнение с знакомыми инструментами

Глубокое озеро против хромы

Как Deep Lake, так и Chromadb позволяют пользователям хранить и искать векторы (встраиваемые) и предлагают интеграцию с Langchain и LlamainDex. Тем не менее, они архитектурно очень разные. ChromADB - это векторная база данных, которую можно развернуть локально или на сервере, используя Docker, и вскоре предложит размещенное решение. Deep Lake-это векторный магазин без сервера, развернутый в собственном облаке пользователя, локально или в памяти. Все вычисления запускают клиентскую сторону, что позволяет пользователям поддерживать легкие производственные приложения за секунды. В отличие от ChromADB, формат данных Deep Lake может хранить необработанные данные, такие как изображения, видео и текст, в дополнение к встраиванию. ChromADB ограничен световыми метаданными поверх встроенных и не имеет визуализации. Наборы данных о глубоком озере могут быть визуализированы и контролируются версией. Deep Lake также имеет исполнитель DataLoader для точной настройки ваших крупных языковых моделей.

Глубокое озеро против Pinecone

Как глубокое озеро, так и Pinecone позволяют пользователям хранить и искать векторы (встраивания) и предлагают интеграцию с Langchain и LlamainDex. Тем не менее, они архитектурно очень разные. PineCone-это полностью управляемая векторная база данных, которая оптимизирована для высококачественных приложений, требующих поиска миллиардов векторов. Глубокое озеро без серверного. Все вычисления запускают клиентскую сторону, что позволяет пользователям начать работу за считанные секунды. В отличие от PineCone, формат данных Deep Lake может хранить необработанные данные, такие как изображения, видео и текст, в дополнение к встраиванию. Наборы данных о глубоком озере могут быть визуализированы и контролируются версией. Pinecone ограничена световыми метаданными поверх встроенных и не имеет визуализации. Deep Lake также имеет исполнитель DataLoader для точной настройки ваших крупных языковых моделей.

Глубокое озеро против Уивиата

И Deep Lake, и Weaviate позволяют пользователям хранить и искать векторы (встраивания) и предлагают интеграцию с Langchain и LlamainDex. Тем не менее, они архитектурно очень разные. Weaviate - это векторная база данных, которую можно развернуть в управляемой службе или пользователем через Kubernetes или Docker. Глубокое озеро без серверного. Все вычисления запускают клиентскую сторону, что позволяет пользователям поддерживать легкие производственные приложения за секунды. В отличие от Weaviate, формат данных Deep Lake может хранить необработанные данные, такие как изображения, видео и текст, в дополнение к встраиванию. Наборы данных о глубоком озере могут быть визуализированы и контролируются версией. Weaviate ограничивается световыми метаданными поверх встроенных и не имеет визуализации. Deep Lake также имеет исполнитель DataLoader для точной настройки ваших крупных языковых моделей.

Глубокое озеро против DVC

Deep Lake и DVC предлагают контроль версий набора данных, аналогичный GIT для данных, но их методы хранения данных значительно различаются. Deep Lake преобразует и хранит данные в виде сжатых массивов, которые позволяют быстрое потоковую передачу в модели ML, тогда как DVC работает поверх данных, хранящиеся в менее эффективных традиционных файловых структурах. Формат Deep Lake делает версию данных значительно проще по сравнению с традиционными файловыми структурами с помощью DVC, когда наборы данных состоит из многих файлов (т.е. множество изображений). Дополнительным различием является то, что DVC в основном использует интерфейс командной строки, тогда как Deep Lake является пакетом Python. Наконец, Deep Lake предлагает API для легко подключения наборов данных к ML Frameworks и другим общим инструментам ML и позволяет мгновенно визуализацию наборов данных с помощью инструмента визуализации ActiveLoop.

Глубокое озеро против Mosaicml MDS Формат

Формат хранения данных: Deep Lake работает на столбчатом формате хранения, тогда как MDS использует подход к хранению строк. Это принципиально влияет на то, как данные читаются, написаны и организуются в каждой системе.
Сжатие: глубокое озеро предлагает более гибкую схему сжатия, позволяющая контролировать как на уровне чан, так и на уровне образца для каждого столбца или тензора. Эта функция устраняет необходимость в дополнительных сжатиях, таких как ZSTD, что в противном случае потребовало бы больше циклов процессора для декомпрессии в верхней части форматов, таких как JPEG.
Shuffling: MDS в настоящее время предлагает более продвинутые стратегии перетасовки.
Поддержка управления версиями и визуализации: заметной особенностью Deep Lake является его нативное управление версиями и визуализация данных в браузере, функция, не присутствующая для формата данных MosaicML. Это может обеспечить значительные преимущества в управлении, понимании и отслеживании различных версий данных.

Deep Lake vs Tensorflow наборы данных (TFD)

Deep Lake и TFDS плавно соединяют популярные наборы данных с ML Frameworks. Наборы данных глубоких озеров совместимы как с Pytorch, так и с Tensorflow, тогда как TFD совместимы только с TensorFlow. Ключевое различие между глубоким озером и TFD заключается в том, что наборы данных Deep Lake предназначены для потоковой передачи из облака, тогда как TFD должны быть загружены локально перед использованием. В результате, с глубоким озером, можно импортировать наборы данных непосредственно из наборов данных TensorFlow и транслировать их в Pytorch или TensorFlow. В дополнение к предоставлению доступа к популярным общедоступным наборам данных, Deep Lake также предлагает мощные инструменты для создания пользовательских наборов данных, хранения их на различных поставщиках облачных хранилищ и сотрудничества с другими через Simple API. TFDS в первую очередь ориентирована на предоставление общественному легкому доступу к обще доступным наборам данных, а управление пользовательскими наборами данных не является основной целью. Полное сравнение можно найти здесь.

Глубокое озеро против Huggingface

Deep Lake и Huggingface предлагают доступ к популярным наборам данных, но Deep Lake в первую очередь фокусируется на компьютерном зрении, тогда как Hurgingface фокусируется на обработке естественного языка. Преобразования HuggingFace и другие вычислительные инструменты для NLP не аналогичны функциям, предлагаемым Deep Lake.

Глубокое озеро против веб -датазитов

Глубокое озеро и WebDatasets предлагают быстрое потоковое трансляцию данных по сети. Они имеют почти идентичные скорости паря, потому что основные сетевые запросы и структуры данных очень похожи. Тем не менее, Deep Lake предлагает превосходный случайный доступ и перетасование, его простой API находится в Python вместо командной линии, а Deep Lake обеспечивает простую индексацию и модификацию набора данных без необходимости его воссоздания.

Глубокое озеро против Зарра

Глубокое озеро и Зарр предлагают хранилище данных в качестве кусочков массивов. Тем не менее, Deep Lake в основном предназначено для возврата данных в качестве массивов с использованием простого API, а не на самом деле хранение необработанных массивов (даже если это также возможно). Глубокое озеро хранит данные в оптимизированных форматах использования, таких как JPEG или PNG для изображений, или MP4 для видео, и пользователь относится к данным как если бы это массив, потому что Deep Lake обрабатывает все обработки данных между ними. Deep Lake предлагает большую гибкость для хранения массивов с динамической формой (рваные тензоры), и он предоставляет несколько функций, которые не доступны в ZARR, такие как управление версиями, потоковая передача данных и подключение данных с фреймворками ML.

Сообщество

Присоединяйтесь к нашему сообществу Slack, чтобы узнать больше об управлении неструктурированным набором данных, используя Deep Lake и получить помощь от команды ActiveLoop и других пользователей.

Нам понравится ваш отзыв, завершив наш 3-минутный опрос .

Как всегда, благодаря нашим удивительным участникам!

Сделано с участниками-Имг.

Пожалуйста, прочитайте Anforming.md, чтобы начать вносить вклад в Deep Lake.

Readme значок

Используя глубокое озеро? Добавьте значок Readme, чтобы все знали:

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

Отказ от ответственности

Лицензии на наборы данных

Пользователи Deep Lake могут иметь доступ к различным общедоступным наборам данных. Мы не размещаем и не размещаем эти наборы данных, не ручаются за их качество или справедливость, или утверждаем, что у вас есть лицензия на использование наборов данных. Вы обязаны определить, есть ли у вас разрешение использовать наборы данных по их лицензии.

Если вы владелец набора данных и не хотите, чтобы ваш набор данных был включен в эту библиотеку, свяжитесь с проблемой GitHub. Спасибо за ваш вклад в сообщество ML!

Отслеживание использования

По умолчанию мы собираем данные об использовании с использованием Bugout (вот код, который это делает). Он не собирает пользовательские данные, кроме анонимизированных данных IP -адреса, и регистрирует только собственные действия библиотеки Deep Lake. Это помогает нашей команде понять, как используется инструмент и как создавать функции, которые важны для вас! После регистрации в Activeloop данные больше не являются анонимными. Вы всегда можете отказаться от отчетности, установив переменную среду BUGGER_OFF на True :

Цитирование

Если вы используете Deep Lake в своем исследовании, пожалуйста, цитируйте ActiveLoop, используя:

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

Подтверждение

Эта технология была вдохновлена нашей исследовательской работой в Принстонском университете. Мы хотели бы поблагодарить Уильяма Сильверса @seunglab за его потрясающий инструмент облака.

Расширять

Дополнительная информация

Версия v4.0.3
Тип Другой исходный код
Время обновления 2025-02-23
размер 56.75KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22