Deep Lakeは、ディープラーニングアプリケーション用に最適化されたストレージ形式を搭載したAIのデータベースです。ディープレイクは以下に使用できます
Deep Lakeは、すべてのデータ型(エンベッド、オーディオ、テキスト、ビデオ、画像、DICOM、PDF、注釈など)にストレージを提供することにより、エンタープライズグレードのLLMベースの製品の展開を簡素化します。規模のモデル、データバージョン、系統、およびLangchain、Llamaindex、Weights&Biaseなどの一般的なツールとの統合。 Deep Lakeは、あらゆるサイズのデータで動作し、サーバーレスであり、すべてのデータを自分のクラウドと1か所に保存することができます。ディープレイクは、Intel、Bayer Radiology、Matterport、Zero Systems、Red Cross、Yale、&Oxfordが使用しています。
ディープレイクは、PIPを使用して設置できます。
pip install deeplakeLLMアプリケーションを構築するためのベクトルストアとしてディープレイクを使用してください。
ディープレイクを使用してデータを管理しながら、ディープラーニングモデルをトレーニングしながら:
Deep Lakeは、深い学習ワークフローを合理化するために、他のツールとの統合を提供します。現在の統合には次のものがあります。
ガイド、例、チュートリアル、APIリファレンス、その他の有用な情報を開始することは、ドキュメントページに記載されています。
Deep Lakeユーザーは、Deep Lakeのアプリとの無料統合を通じて、さまざまな人気のあるデータセットにアクセスして視覚化できます。大学は、1か月あたりテンソルデータベースで最大1TBのデータストレージと100,000の毎月のクエリを入手できます。私たちのウェブサイトでチャット:アクセスを請求するために!
Deep LakeとChromadbの両方を使用すると、ユーザーはベクター(埋め込み)を保存および検索し、LangchainとLlamaindexとの統合を提供できます。しかし、それらは建築的に非常に異なっています。 ChromaDBは、Dockerを使用してローカルまたはサーバー上に展開できるベクトルデータベースであり、まもなくホストされたソリューションを提供します。 Deep Lakeは、ユーザー自身のクラウド、ローカル、またはインメモリに展開されているサーバーレスベクターストアです。すべての計算は、クライアント側を実行するため、ユーザーは数秒で軽量の制作アプリをサポートできます。 ChromADBとは異なり、Deep Lakeのデータ形式は、埋め込みに加えて、画像、ビデオ、テキストなどの生データを保存できます。 ChromaDBは、埋め込みの上にある光メタデータに限定されており、視覚化はありません。ディープレイクデータセットは視覚化およびバージョン制御できます。 Deep Lakeには、大規模な言語モデルを微調整するためのパフォーマンスのあるDataloaderもあります。
Deep LakeとPineconeの両方で、ユーザーはベクター(埋め込み)を保存および検索し、LangchainとLlamaindexとの統合を提供できます。しかし、それらは建築的に非常に異なっています。 Pineconeは、数十億のベクトルを検索する必要がある非常に厳しいアプリケーション用に最適化された完全に管理されたベクトルデータベースです。ディープレイクはサーバーレスです。すべての計算はクライアント側を実行するため、ユーザーは数秒で開始できます。 Pineconeとは異なり、Deep Lakeのデータ形式は、埋め込みに加えて、画像、ビデオ、テキストなどの生データを保存できます。ディープレイクデータセットは視覚化およびバージョン制御できます。 Pineconeは、埋め込みの上にある光メタデータに限定されており、視覚化はありません。 Deep Lakeには、大規模な言語モデルを微調整するためのパフォーマンスのあるDataloaderもあります。
Deep LakeとWeaviateの両方で、ユーザーはベクター(埋め込み)を保存および検索し、LangchainとLlamaindexとの統合を提供できます。しかし、それらは建築的に非常に異なっています。 Weaviateは、マネージドサービスまたはKubernetesまたはDockerを介してユーザーが展開できるベクトルデータベースです。ディープレイクはサーバーレスです。すべての計算は、クライアント側を実行するため、ユーザーは数秒で軽量の制作アプリをサポートできます。 Weaviateとは異なり、Deep Lakeのデータ形式は、埋め込みに加えて、画像、ビデオ、テキストなどの生データを保存できます。ディープレイクデータセットは視覚化およびバージョン制御できます。 Weaviateは、埋め込みの上にある光メタデータに限定されており、視覚化はありません。 Deep Lakeには、大規模な言語モデルを微調整するためのパフォーマンスのあるDataloaderもあります。
Deep LakeとDVCは、データのGITと同様のデータセットバージョン制御を提供しますが、データを保存する方法は大きく異なります。 Deep Lakeは、MLモデルへの迅速なストリーミングを可能にする圧縮配列のチャンクとしてデータを変換および保存しますが、DVCは、従来の効率の低いファイル構造に保存されているデータの上に動作します。 Deep Lake形式により、データセットが多くのファイル(つまり、多くの画像)で構成されている場合、DVCによる従来のファイル構造と比較して、データセットバージョンのバージョンが大幅に容易になります。追加の区別は、DVCが主にコマンドラインインターフェイスを使用しているのに対し、Deep LakeはPythonパッケージであることです。最後に、Deep LakeはAPIを提供して、データセットをMLフレームワークやその他の一般的なMLツールに簡単に接続し、Activeloopの視覚化ツールを介してインスタントデータセットの視覚化を可能にします。
Deep LakeとTFDSは、人気のあるデータセットをMLフレームワークにシームレスに接続します。 Deep LakeデータセットはPytorchとTensorflowの両方と互換性がありますが、TFDはTensorflowとのみ互換性があります。 Deep LakeとTFDSの重要な違いは、Deep Lakeデータセットがクラウドからストリーミングするために設計されているのに対し、TFDは使用前にローカルにダウンロードする必要があることです。その結果、Deep Lakeを使用すると、Tensorflowデータセットから直接データセットをインポートし、PytorchまたはTensorflowにストリーミングできます。人気のある公開データセットへのアクセスを提供することに加えて、Deep Lakeは、カスタムデータセットを作成し、さまざまなクラウドストレージプロバイダーに保存し、単純なAPIを介して他の人とコラボレーションするための強力なツールも提供します。 TFDSは主に、一般的に利用可能なデータセットに公開されやすいアクセスを提供することに焦点を当てており、カスタムデータセットの管理は主な焦点ではありません。完全な比較記事はここにあります。
Slackコミュニティに参加して、Deep Lakeを使用して構造化されていないデータセット管理の詳細をご覧ください。Activeloopチームや他のユーザーからサポートを受けてください。
3分間の調査を完了することで、フィードバックをご希望になります。
いつものように、私たちの素晴らしい貢献者に感謝します!
寄稿者で作られています。
Deep Lakeへの貢献を始めるために、Convinting.mdを読んでください。
ディープレイクを使用していますか? readmeバッジを追加して、みんなに知らせてください:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Deep Lakeユーザーは、さまざまな公開されているデータセットにアクセスできる場合があります。これらのデータセットをホストまたは配布したり、品質や公平性を保証したり、データセットを使用するライセンスがあると主張したりしません。ライセンスの下でデータセットを使用する許可があるかどうかを判断するのはあなたの責任です。
データセットの所有者であり、データセットをこのライブラリに含めることを望まない場合は、GitHubの問題をご連絡ください。 MLコミュニティにご貢献いただきありがとうございます。
デフォルトでは、Bugoutを使用して使用データを収集します(ここにそれを行うコードがあります)。匿名化されたIPアドレスデータ以外のユーザーデータを収集せず、Deep Lake Library自身のアクションのみを記録します。これにより、チームはツールの使用方法と、重要な機能を構築する方法を理解するのに役立ちます! Activeloopに登録した後、データは匿名ではなくなりました。環境変数BUGGER_OFF Trueに設定することにより、いつでもレポートをオプトアウトできます。
調査でディープレイクを使用している場合は、以下を使用してActiveloopを引用してください。
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}この技術は、プリンストン大学での研究作業に触発されました。 William Silversmith @seunglabの素晴らしいクラウドボリュームツールに感謝します。