deeplakeのダウンロード - deeplakeソースコードのダウンロード

deeplake

その他のソースコード

v4.0.3

ダウンロード

ディープレイク：AIのデータベース

ドキュメント•開始• APIリファレンス• Langchain＆Vectordbsコース•ブログ•ホワイトペーパー•スラック• Twitter

ディープレイクとは何ですか？

Deep Lakeは、ディープラーニングアプリケーション用に最適化されたストレージ形式を搭載したAIのデータベースです。ディープレイクは以下に使用できます

LLMアプリケーションの構築中のデータとベクトルの保存と検索
深い学習モデルのトレーニング中のデータセットの管理

Deep Lakeは、すべてのデータ型（エンベッド、オーディオ、テキスト、ビデオ、画像、DICOM、PDF、注釈など）にストレージを提供することにより、エンタープライズグレードのLLMベースの製品の展開を簡素化します。規模のモデル、データバージョン、系統、およびLangchain、Llamaindex、Weights＆Biaseなどの一般的なツールとの統合。 Deep Lakeは、あらゆるサイズのデータで動作し、サーバーレスであり、すべてのデータを自分のクラウドと1か所に保存することができます。ディープレイクは、Intel、Bayer Radiology、Matterport、Zero Systems、Red Cross、Yale、＆Oxfordが使用しています。

ディープレイクには次の機能が含まれています。

マルチクラウドサポート（S3、GCP、Azure）

1つのAPIを使用して、S3、Azure、GCP、Activeloopクラウド、ローカルストレージ、またはインメモリストレージに出入りするデータセットをアップロード、ダウンロード、およびストリーミングします。 MinioなどのS3互換ストレージと互換性があります。

怠zyなnumpyのようなインデックスを使用したネイティブ圧縮

ネイティブの圧縮に画像、オーディオ、ビデオを保存します。システムのメモリ内のnumpyアレイのコレクションなど、データとのスライス、インデックス、反復、および対話。 Deep Lakeは、必要な場合にのみデータをロードします。たとえば、モデルのトレーニングや実行中のクエリを実行します。

人気のある深い学習フレームワークのためのデータローダー

ディープレイクには、PytorchとTensorflow用のビルトインデータローダーが付属しています。数行のコードでモデルを訓練します - データセットのシャッフルの世話もします。 :)

強力なツールとの統合

Deep Lakeは、LANGCHAINおよびLMAINDEXとLLMアプリのベクトルストア、モデルトレーニング中のデータ系統の重みとバイアス、オブジェクト検出モデルのトレーニング用のMMDETECTION、およびセマンティックセグメンテーションモデルのトレーニング用MMSGEMATIONを統合しています。

数秒で利用可能な100以上の最も人気のある画像、ビデオ、およびオーディオデータセット

Deep Lake Communityは、Mnist、Coco、Imagenet、Cifar、Gtzanなどの100以上の画像、ビデオ、オーディオデータセットをアップロードしました。

Deep Lakeアプリでのインスタントビジュアライゼーションサポート

ディープレイクのデータセットは、深い湖の視覚装置で、境界ボックス、マスク、注釈などで即座に視覚化されます（以下を参照）。

ディープレイクの設置方法

ディープレイクは、PIPを使用して設置できます。

pip install deeplake

Deep Lakeのすべての機能にアクセスするには、Deep Lakeアプリに登録してください。

？アプリケーションによるディープレイクコードの例

ベクトルストアアプリケーション

LLMアプリケーションを構築するためのベクトルストアとしてディープレイクを使用してください。

-Vectorストアクイックスタート

- ベクトルストアのチュートリアル

-Langchain統合

-LlamainDex統合

- ディープレイクでの画像の類似性検索

ディープラーニングアプリケーション

ディープレイクを使用してデータを管理しながら、ディープラーニングモデルをトレーニングしながら：

- ディープラーニングクイックスタート

- トレーニングモデルのチュートリアル

統合

Deep Lakeは、深い学習ワークフローを合理化するために、他のツールとの統合を提供します。現在の統合には次のものがあります。

LLMアプリ
- Deep LakeをLLMアプリのベクトルストアとして使用します。統合により、Langchain VectorStores APIとDeep Lakeデータセットを基礎となるデータストレージとして組み合わせています。統合は、ローカルまたは選択したクラウドに展開できるサーバーレスベクターストアです。

ドキュメント

ガイド、例、チュートリアル、APIリファレンス、その他の有用な情報を開始することは、ドキュメントページに記載されています。

？学生と教育者向け

Deep Lakeユーザーは、Deep Lakeのアプリとの無料統合を通じて、さまざまな人気のあるデータセットにアクセスして視覚化できます。大学は、1か月あたりテンソルデータベースで最大1TBのデータストレージと100,000の毎月のクエリを入手できます。私たちのウェブサイトでチャット：アクセスを請求するために！

？馴染みのあるツールとの比較

ディープレイク対クロマ

Deep LakeとChromadbの両方を使用すると、ユーザーはベクター（埋め込み）を保存および検索し、LangchainとLlamaindexとの統合を提供できます。しかし、それらは建築的に非常に異なっています。 ChromaDBは、Dockerを使用してローカルまたはサーバー上に展開できるベクトルデータベースであり、まもなくホストされたソリューションを提供します。 Deep Lakeは、ユーザー自身のクラウド、ローカル、またはインメモリに展開されているサーバーレスベクターストアです。すべての計算は、クライアント側を実行するため、ユーザーは数秒で軽量の制作アプリをサポートできます。 ChromADBとは異なり、Deep Lakeのデータ形式は、埋め込みに加えて、画像、ビデオ、テキストなどの生データを保存できます。 ChromaDBは、埋め込みの上にある光メタデータに限定されており、視覚化はありません。ディープレイクデータセットは視覚化およびバージョン制御できます。 Deep Lakeには、大規模な言語モデルを微調整するためのパフォーマンスのあるDataloaderもあります。

ディープレイク対松ぼっくり

Deep LakeとPineconeの両方で、ユーザーはベクター（埋め込み）を保存および検索し、LangchainとLlamaindexとの統合を提供できます。しかし、それらは建築的に非常に異なっています。 Pineconeは、数十億のベクトルを検索する必要がある非常に厳しいアプリケーション用に最適化された完全に管理されたベクトルデータベースです。ディープレイクはサーバーレスです。すべての計算はクライアント側を実行するため、ユーザーは数秒で開始できます。 Pineconeとは異なり、Deep Lakeのデータ形式は、埋め込みに加えて、画像、ビデオ、テキストなどの生データを保存できます。ディープレイクデータセットは視覚化およびバージョン制御できます。 Pineconeは、埋め込みの上にある光メタデータに限定されており、視覚化はありません。 Deep Lakeには、大規模な言語モデルを微調整するためのパフォーマンスのあるDataloaderもあります。

ディープレイク対織り

Deep LakeとWeaviateの両方で、ユーザーはベクター（埋め込み）を保存および検索し、LangchainとLlamaindexとの統合を提供できます。しかし、それらは建築的に非常に異なっています。 Weaviateは、マネージドサービスまたはKubernetesまたはDockerを介してユーザーが展開できるベクトルデータベースです。ディープレイクはサーバーレスです。すべての計算は、クライアント側を実行するため、ユーザーは数秒で軽量の制作アプリをサポートできます。 Weaviateとは異なり、Deep Lakeのデータ形式は、埋め込みに加えて、画像、ビデオ、テキストなどの生データを保存できます。ディープレイクデータセットは視覚化およびバージョン制御できます。 Weaviateは、埋め込みの上にある光メタデータに限定されており、視覚化はありません。 Deep Lakeには、大規模な言語モデルを微調整するためのパフォーマンスのあるDataloaderもあります。

ディープレイク対DVC

Deep LakeとDVCは、データのGITと同様のデータセットバージョン制御を提供しますが、データを保存する方法は大きく異なります。 Deep Lakeは、MLモデルへの迅速なストリーミングを可能にする圧縮配列のチャンクとしてデータを変換および保存しますが、DVCは、従来の効率の低いファイル構造に保存されているデータの上に動作します。 Deep Lake形式により、データセットが多くのファイル（つまり、多くの画像）で構成されている場合、DVCによる従来のファイル構造と比較して、データセットバージョンのバージョンが大幅に容易になります。追加の区別は、DVCが主にコマンドラインインターフェイスを使用しているのに対し、Deep LakeはPythonパッケージであることです。最後に、Deep LakeはAPIを提供して、データセットをMLフレームワークやその他の一般的なMLツールに簡単に接続し、Activeloopの視覚化ツールを介してインスタントデータセットの視覚化を可能にします。

Deep Lake vs MosaicMl MDS形式

データストレージ形式： Deep Lakeは柱状ストレージ形式で動作しますが、MDSは列ごとのストレージアプローチを利用しています。これは、各システムでデータの読み取り、書き込み、編成方法に根本的に影響を与えます。
圧縮：ディープレイクは、より柔軟な圧縮スキームを提供し、各カラムまたはテンソルのチャンクレベルとサンプルレベルの圧縮の両方を制御できます。この機能により、ZSTDのような追加の圧縮が必要になります。これにより、JPEGなどのフォーマットに加えてより多くのCPUサイクルが必要になります。
シャッフル： MDSは現在、より高度なシャッフル戦略を提供しています。
バージョン制御と視覚化サポート： Deep Lakeの注目すべき機能は、Nativeバージョンのコントロールとブラウザ内のデータ視覚化であり、MOSAICMLデータ形式に存在しない機能です。これは、さまざまなバージョンのデータの管理、理解、追跡において大きな利点を提供できます。

ディープレイク対テンソルフローデータセット（TFD）

Deep LakeとTFDSは、人気のあるデータセットをMLフレームワークにシームレスに接続します。 Deep LakeデータセットはPytorchとTensorflowの両方と互換性がありますが、TFDはTensorflowとのみ互換性があります。 Deep LakeとTFDSの重要な違いは、Deep Lakeデータセットがクラウドからストリーミングするために設計されているのに対し、TFDは使用前にローカルにダウンロードする必要があることです。その結果、Deep Lakeを使用すると、Tensorflowデータセットから直接データセットをインポートし、PytorchまたはTensorflowにストリーミングできます。人気のある公開データセットへのアクセスを提供することに加えて、Deep Lakeは、カスタムデータセットを作成し、さまざまなクラウドストレージプロバイダーに保存し、単純なAPIを介して他の人とコラボレーションするための強力なツールも提供します。 TFDSは主に、一般的に利用可能なデータセットに公開されやすいアクセスを提供することに焦点を当てており、カスタムデータセットの管理は主な焦点ではありません。完全な比較記事はここにあります。

ディープレイクvsハギングフェイス

Deep LakeとHuggingfaceは人気のあるデータセットへのアクセスを提供しますが、Deep Lakeは主にコンピュータービジョンに焦点を当てていますが、Huggingfaceは自然言語処理に焦点を当てています。 NLP用のハギングフェイス変換やその他の計算ツールは、ディープレイクが提供する機能に類似していません。

ディープレイクvs webdatasets

Deep LakeとWebdatasetsはどちらもネットワーク全体の迅速なデータストリーミングを提供しています。基礎となるネットワーク要求とデータ構造は非常に似ているため、ほぼ同じ蒸気速度があります。ただし、Deep Lakeは優れたランダムアクセスとシャッフルを提供し、その単純なAPIはコマンドラインの代わりにPythonにあり、Deep Lakeはそれを再作成することなくデータセットの単純なインデックス作成と変更を可能にします。

ディープレイク対ザール

Deep LakeとZarrはどちらも、チャンクアレイとしてデータのストレージを提供しています。ただし、Deep Lakeは、実際に生配列を保存するのではなく、単純なAPIを使用して配列としてデータを返すように主に設計されています（それも可能ですが）。 Deep Lakeは、画像用のJPEGやPNGなどのユースケース最適化形式のデータ、またはビデオ用のMP4のデータを保存します。ユーザーは、データを配列であるかのように扱います。 Deep Lakeは、動的形状（ぼろぼろのテンソル）のアレイを保存するためのより柔軟性を提供し、バージョンコントロール、データストリーミング、データの接続などのZARRでは素朴に利用できないいくつかの機能を提供します。

コミュニティ

Slackコミュニティに参加して、Deep Lakeを使用して構造化されていないデータセット管理の詳細をご覧ください。Activeloopチームや他のユーザーからサポートを受けてください。

3分間の調査を完了することで、フィードバックをご希望になります。

いつものように、私たちの素晴らしい貢献者に感謝します！

寄稿者で作られています。

Deep Lakeへの貢献を始めるために、Convinting.mdを読んでください。

readmeバッジ

ディープレイクを使用していますか？ readmeバッジを追加して、みんなに知らせてください：

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

免責事項

データセットライセンス

Deep Lakeユーザーは、さまざまな公開されているデータセットにアクセスできる場合があります。これらのデータセットをホストまたは配布したり、品質や公平性を保証したり、データセットを使用するライセンスがあると主張したりしません。ライセンスの下でデータセットを使用する許可があるかどうかを判断するのはあなたの責任です。

データセットの所有者であり、データセットをこのライブラリに含めることを望まない場合は、GitHubの問題をご連絡ください。 MLコミュニティにご貢献いただきありがとうございます。

使用トラッキング

デフォルトでは、Bugoutを使用して使用データを収集します（ここにそれを行うコードがあります）。匿名化されたIPアドレスデータ以外のユーザーデータを収集せず、Deep Lake Library自身のアクションのみを記録します。これにより、チームはツールの使用方法と、重要な機能を構築する方法を理解するのに役立ちます！ Activeloopに登録した後、データは匿名ではなくなりました。環境変数BUGGER_OFF Trueに設定することにより、いつでもレポートをオプトアウトできます。

引用

調査でディープレイクを使用している場合は、以下を使用してActiveloopを引用してください。

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

了承

この技術は、プリンストン大学での研究作業に触発されました。 William Silversmith @seunglabの素晴らしいクラウドボリュームツールに感謝します。

拡大する

追加情報

バージョン v4.0.3
タイプその他のソースコード
更新時間 2025-02-23
サイズ 56.75KB
から Github