Deep Lake-это база данных для ИИ, работающего в форме хранения, оптимизированного для приложений глубокого обучения. Глубокое озеро можно использовать для:
Deep Lake упрощает развертывание продуктов LLM на основе корпоративного класса, предлагая хранилище для всех типов данных (Entiou, Audio, Text, Videos, изображения, DICOM, PDFS, аннотации и многое другое), запросы и поиск векторов, потоковое движение данных во время обучения. Модели в масштабе, управление версиями данных и родословную, а также интеграции с популярными инструментами, такими как Langchain, LmamainDex, Weights & Mizees и многие другие. Deep Lake работает с данными любого размера, оно без сервера, и позволяет вам хранить все данные в вашем собственном облаке и в одном месте. Глубокое озеро используется Intel, Bayer Radiology, Matterport, Zero Systems, Красный Крест, Йельский университет и Оксфорд.
Глубокое озеро можно установить с помощью PIP:
pip install deeplakeИспользование Deep Lake в качестве векторного магазина для строительства применений LLM:
Использование Deep Lake для управления данными при обучении моделей глубокого обучения:
Deep Lake предлагает интеграцию с другими инструментами, чтобы упростить ваши рабочие процессы глубокого обучения. Текущие интеграции включают:
Начало работы, примеры, учебные пособия, ссылка API и другая полезная информация можно найти на нашей странице документации.
Пользователи Deep Lake могут получить доступ и визуализировать множество популярных наборов данных с помощью бесплатной интеграции с приложением Deep Lake. Университеты могут получить до 1 ТБ хранилища данных и 100 000 ежемесячных запросов в базе данных Tensor бесплатно в месяц. Поговорите на нашем веб -сайте: чтобы получить доступ!
Как Deep Lake, так и Chromadb позволяют пользователям хранить и искать векторы (встраиваемые) и предлагают интеграцию с Langchain и LlamainDex. Тем не менее, они архитектурно очень разные. ChromADB - это векторная база данных, которую можно развернуть локально или на сервере, используя Docker, и вскоре предложит размещенное решение. Deep Lake-это векторный магазин без сервера, развернутый в собственном облаке пользователя, локально или в памяти. Все вычисления запускают клиентскую сторону, что позволяет пользователям поддерживать легкие производственные приложения за секунды. В отличие от ChromADB, формат данных Deep Lake может хранить необработанные данные, такие как изображения, видео и текст, в дополнение к встраиванию. ChromADB ограничен световыми метаданными поверх встроенных и не имеет визуализации. Наборы данных о глубоком озере могут быть визуализированы и контролируются версией. Deep Lake также имеет исполнитель DataLoader для точной настройки ваших крупных языковых моделей.
Как глубокое озеро, так и Pinecone позволяют пользователям хранить и искать векторы (встраивания) и предлагают интеграцию с Langchain и LlamainDex. Тем не менее, они архитектурно очень разные. PineCone-это полностью управляемая векторная база данных, которая оптимизирована для высококачественных приложений, требующих поиска миллиардов векторов. Глубокое озеро без серверного. Все вычисления запускают клиентскую сторону, что позволяет пользователям начать работу за считанные секунды. В отличие от PineCone, формат данных Deep Lake может хранить необработанные данные, такие как изображения, видео и текст, в дополнение к встраиванию. Наборы данных о глубоком озере могут быть визуализированы и контролируются версией. Pinecone ограничена световыми метаданными поверх встроенных и не имеет визуализации. Deep Lake также имеет исполнитель DataLoader для точной настройки ваших крупных языковых моделей.
И Deep Lake, и Weaviate позволяют пользователям хранить и искать векторы (встраивания) и предлагают интеграцию с Langchain и LlamainDex. Тем не менее, они архитектурно очень разные. Weaviate - это векторная база данных, которую можно развернуть в управляемой службе или пользователем через Kubernetes или Docker. Глубокое озеро без серверного. Все вычисления запускают клиентскую сторону, что позволяет пользователям поддерживать легкие производственные приложения за секунды. В отличие от Weaviate, формат данных Deep Lake может хранить необработанные данные, такие как изображения, видео и текст, в дополнение к встраиванию. Наборы данных о глубоком озере могут быть визуализированы и контролируются версией. Weaviate ограничивается световыми метаданными поверх встроенных и не имеет визуализации. Deep Lake также имеет исполнитель DataLoader для точной настройки ваших крупных языковых моделей.
Deep Lake и DVC предлагают контроль версий набора данных, аналогичный GIT для данных, но их методы хранения данных значительно различаются. Deep Lake преобразует и хранит данные в виде сжатых массивов, которые позволяют быстрое потоковую передачу в модели ML, тогда как DVC работает поверх данных, хранящиеся в менее эффективных традиционных файловых структурах. Формат Deep Lake делает версию данных значительно проще по сравнению с традиционными файловыми структурами с помощью DVC, когда наборы данных состоит из многих файлов (т.е. множество изображений). Дополнительным различием является то, что DVC в основном использует интерфейс командной строки, тогда как Deep Lake является пакетом Python. Наконец, Deep Lake предлагает API для легко подключения наборов данных к ML Frameworks и другим общим инструментам ML и позволяет мгновенно визуализацию наборов данных с помощью инструмента визуализации ActiveLoop.
Deep Lake и TFDS плавно соединяют популярные наборы данных с ML Frameworks. Наборы данных глубоких озеров совместимы как с Pytorch, так и с Tensorflow, тогда как TFD совместимы только с TensorFlow. Ключевое различие между глубоким озером и TFD заключается в том, что наборы данных Deep Lake предназначены для потоковой передачи из облака, тогда как TFD должны быть загружены локально перед использованием. В результате, с глубоким озером, можно импортировать наборы данных непосредственно из наборов данных TensorFlow и транслировать их в Pytorch или TensorFlow. В дополнение к предоставлению доступа к популярным общедоступным наборам данных, Deep Lake также предлагает мощные инструменты для создания пользовательских наборов данных, хранения их на различных поставщиках облачных хранилищ и сотрудничества с другими через Simple API. TFDS в первую очередь ориентирована на предоставление общественному легкому доступу к обще доступным наборам данных, а управление пользовательскими наборами данных не является основной целью. Полное сравнение можно найти здесь.
Присоединяйтесь к нашему сообществу Slack, чтобы узнать больше об управлении неструктурированным набором данных, используя Deep Lake и получить помощь от команды ActiveLoop и других пользователей.
Нам понравится ваш отзыв, завершив наш 3-минутный опрос .
Как всегда, благодаря нашим удивительным участникам!
Сделано с участниками-Имг.
Пожалуйста, прочитайте Anforming.md, чтобы начать вносить вклад в Deep Lake.
Используя глубокое озеро? Добавьте значок Readme, чтобы все знали:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Пользователи Deep Lake могут иметь доступ к различным общедоступным наборам данных. Мы не размещаем и не размещаем эти наборы данных, не ручаются за их качество или справедливость, или утверждаем, что у вас есть лицензия на использование наборов данных. Вы обязаны определить, есть ли у вас разрешение использовать наборы данных по их лицензии.
Если вы владелец набора данных и не хотите, чтобы ваш набор данных был включен в эту библиотеку, свяжитесь с проблемой GitHub. Спасибо за ваш вклад в сообщество ML!
По умолчанию мы собираем данные об использовании с использованием Bugout (вот код, который это делает). Он не собирает пользовательские данные, кроме анонимизированных данных IP -адреса, и регистрирует только собственные действия библиотеки Deep Lake. Это помогает нашей команде понять, как используется инструмент и как создавать функции, которые важны для вас! После регистрации в Activeloop данные больше не являются анонимными. Вы всегда можете отказаться от отчетности, установив переменную среду BUGGER_OFF на True :
Если вы используете Deep Lake в своем исследовании, пожалуйста, цитируйте ActiveLoop, используя:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}Эта технология была вдохновлена нашей исследовательской работой в Принстонском университете. Мы хотели бы поблагодарить Уильяма Сильверса @seunglab за его потрясающий инструмент облака.