Unduh deeplake - Unduh Kode Sumber deeplake

deeplake

Kode sumber lainnya

v4.0.3

Unduh

Deep Lake: Database untuk AI

Dokumen • Mulai • Referensi API • Kursus Langchain & Vectorbbs • Blog • Whitepaper • Slack • Twitter

Apa itu Deep Lake?

Deep Lake adalah database untuk AI yang ditenagai oleh format penyimpanan yang dioptimalkan untuk aplikasi belajar yang dalam. Deep Lake dapat digunakan untuk:

Menyimpan dan mencari data plus vektor saat membangun aplikasi LLM
Mengelola set data saat melatih model pembelajaran yang mendalam

Deep Lake menyederhanakan penyebaran produk berbasis LLM kelas perusahaan dengan menawarkan penyimpanan untuk semua tipe data (embeddings, audio, teks, video, gambar, dicom, PDF, anotasi, dan banyak lagi), pencarian dan pencarian vektor, streaming data saat pelatihan saat pelatihan saat melatih saat Model pada skala, versi data dan garis keturunan, dan integrasi dengan alat -alat populer seperti langchain, llamaindex, bobot & bias, dan banyak lagi. Deep Lake berfungsi dengan data dengan ukuran apa pun, itu tanpa server, dan memungkinkan Anda untuk menyimpan semua data Anda di cloud Anda sendiri dan di satu tempat. Deep Lake digunakan oleh Intel, Radiologi Bayer, Matterport, Sistem Zero, Palang Merah, Yale, & Oxford.

Deep Lake termasuk fitur -fitur berikut:

Dukungan multi-cloud (S3, GCP, Azure)

Gunakan satu API untuk mengunggah, mengunduh, dan stream kumpulan data ke/dari S3, Azure, GCP, ActiveLoop Cloud, penyimpanan lokal, atau penyimpanan dalam memori. Kompatibel dengan penyimpanan yang kompatibel dengan S3 seperti Minio.

Kompresi asli dengan pengindeksan seperti numpy malas

Simpan gambar, audio, dan video dalam kompresi asli mereka. Iris, indeks, periksa, dan berinteraksi dengan data Anda seperti kumpulan array numpy di memori sistem Anda. Deep Lake dengan malas memuat data hanya saat dibutuhkan, misalnya, saat melatih model atau menjalankan kueri.

Dataloaders untuk kerangka pembelajaran mendalam yang populer

Deep Lake hadir dengan Dataloaders bawaan untuk Pytorch dan TensorFlow. Latih model Anda dengan beberapa baris kode - kami bahkan mengurus pengocokan dataset. :)

Integrasi dengan alat yang kuat

Deep Lake memiliki integrasi dengan langchain dan llamaindex sebagai toko vektor untuk aplikasi LLM, bobot & bias untuk garis keturunan data selama pelatihan model, mmdeteksi untuk model deteksi objek pelatihan, dan MMSegmentation untuk pelatihan model segmentasi semantik.

100+ Dataset gambar, video, dan audio paling populer tersedia dalam hitungan detik

Deep Lake Community telah mengunggah 100+ dataset gambar, video dan audio seperti MNIST, Coco, Imagenet, Cifar, Gtzan dan lainnya.

Dukungan visualisasi instan di aplikasi Deep Lake

Dataset Deep Lake langsung divisualisasikan dengan kotak pembatas, topeng, anotasi, dll. Di Deep Lake Visualizer (lihat di bawah).

Cara memasang Deep Lake

Deep Lake dapat dipasang menggunakan PIP:

pip install deeplake

Untuk mengakses semua fitur Deep Lake, silakan mendaftar di aplikasi Deep Lake.

? Contoh Kode Danau Dalam berdasarkan Aplikasi

Aplikasi toko vektor

Menggunakan Deep Lake sebagai toko vektor untuk membangun aplikasi LLM:

- Vector Store QuickStart

- Tutorial toko vektor

- Integrasi Langchain

- Integrasi Llamaindex

- Pencarian kesamaan gambar dengan Deep Lake

Aplikasi pembelajaran yang mendalam

Menggunakan Deep Lake untuk mengelola data saat melatih model pembelajaran yang mendalam:

- Pembelajaran mendalam QuickStart

- Tutorial untuk model pelatihan

Integrasi

Deep Lake menawarkan integrasi dengan alat lain untuk merampingkan alur kerja pembelajaran mendalam Anda. Integrasi saat ini meliputi:

Aplikasi llm
- Gunakan Deep Lake sebagai toko vektor untuk aplikasi LLM. Integrasi kami menggabungkan Langchain VectorStores API dengan dataset Deep Lake sebagai penyimpanan data yang mendasarinya. Integrasi adalah toko vektor tanpa server yang dapat digunakan secara lokal atau di awan pilihan Anda.

Dokumentasi

Memulai pemandu, contoh, tutorial, referensi API, dan informasi berguna lainnya dapat ditemukan di halaman dokumentasi kami.

? Untuk siswa dan pendidik

Pengguna Deep Lake dapat mengakses dan memvisualisasikan berbagai dataset populer melalui integrasi gratis dengan aplikasi Deep Lake. Universitas dapat memperoleh penyimpanan data hingga 1TB dan 100.000 kueri bulanan pada database Tensor secara gratis per bulan. Mengobrol di situs web kami: untuk mengklaim aksesnya!

? ‍ Perbandingan dengan alat yang sudah dikenal

Danau Deep vs Chroma

Baik Deep Lake & Chromadb memungkinkan pengguna untuk menyimpan dan mencari vektor (embeddings) dan menawarkan integrasi dengan langchain dan llamaindex. Namun, mereka secara arsitektur sangat berbeda. Chromadb adalah database vektor yang dapat digunakan secara lokal atau di server menggunakan Docker dan akan segera menawarkan solusi yang di -host. Deep Lake adalah toko vektor tanpa server yang digunakan di cloud pengguna, lokal, atau dalam memori. Semua perhitungan berjalan di sisi klien, yang memungkinkan pengguna untuk mendukung aplikasi produksi ringan dalam hitungan detik. Tidak seperti Chromadb, format data Deep Lake dapat menyimpan data mentah seperti gambar, video, dan teks, selain embeddings. Chromadb terbatas pada metadata cahaya di atas embeddings dan tidak memiliki visualisasi. Dataset Deep Lake dapat divisualisasikan dan dikendalikan versi. Deep Lake juga memiliki dataloader performant untuk menyempurnakan model bahasa besar Anda.

Danau Deep vs Pinecone

Baik Deep Lake dan Pinecone memungkinkan pengguna untuk menyimpan dan mencari vektor (embeddings) dan menawarkan integrasi dengan langchain dan llamaindex. Namun, mereka secara arsitektur sangat berbeda. Pinecone adalah basis data vektor yang dikelola penuh yang dioptimalkan untuk aplikasi yang sangat menuntut yang membutuhkan pencarian miliaran vektor. Deep Lake tidak server. Semua perhitungan menjalankan sisi klien, yang memungkinkan pengguna untuk memulai dalam hitungan detik. Tidak seperti Pinecone, format data Deep Lake dapat menyimpan data mentah seperti gambar, video, dan teks, selain embeddings. Dataset Deep Lake dapat divisualisasikan dan dikendalikan versi. Pinecone terbatas pada metadata cahaya di atas embeddings dan tidak memiliki visualisasi. Deep Lake juga memiliki dataloader performant untuk menyempurnakan model bahasa besar Anda.

Deep Lake vs Weaviate

Baik Deep Lake dan Weaviate memungkinkan pengguna untuk menyimpan dan mencari vektor (embeddings) dan menawarkan integrasi dengan langchain dan llamaindex. Namun, mereka secara arsitektur sangat berbeda. Weaviate adalah database vektor yang dapat digunakan dalam layanan yang dikelola atau oleh pengguna melalui Kubernetes atau Docker. Deep Lake tidak server. Semua perhitungan berjalan di sisi klien, yang memungkinkan pengguna untuk mendukung aplikasi produksi ringan dalam hitungan detik. Tidak seperti Weaviate, format data Deep Lake dapat menyimpan data mentah seperti gambar, video, dan teks, selain embeddings. Dataset Deep Lake dapat divisualisasikan dan dikendalikan versi. Weaviate terbatas pada metadata cahaya di atas embeddings dan tidak memiliki visualisasi. Deep Lake juga memiliki dataloader performant untuk menyempurnakan model bahasa besar Anda.

Deep Lake vs DVC

Deep Lake dan DVC menawarkan kontrol versi dataset yang mirip dengan GIT untuk data, tetapi metode mereka untuk menyimpan data berbeda secara signifikan. Deep Lake mengkonversi dan menyimpan data sebagai array terkompresi yang dipotong, yang memungkinkan streaming cepat ke model ML, sedangkan DVC beroperasi di atas data yang disimpan dalam struktur file tradisional yang kurang efisien. Format Danau Deep membuat versi dataset secara signifikan lebih mudah dibandingkan dengan struktur file tradisional oleh DVC ketika dataset terdiri dari banyak file (yaitu, banyak gambar). Perbedaan tambahan adalah bahwa DVC terutama menggunakan antarmuka baris perintah, sedangkan Deep Lake adalah paket Python. Terakhir, Deep Lake menawarkan API untuk dengan mudah menghubungkan dataset ke kerangka kerja ML dan alat ML umum lainnya dan memungkinkan visualisasi dataset instan melalui alat visualisasi ActiveLoop.

Danau Dalam vs Mosaicml MDS Format

Format Penyimpanan Data: Deep Lake beroperasi pada format penyimpanan kolom, sedangkan MDS menggunakan pendekatan penyimpanan berdasarkan baris. Ini pada dasarnya berdampak pada bagaimana data dibaca, ditulis, dan diatur dalam setiap sistem.
Kompresi: Deep Lake menawarkan skema kompresi yang lebih fleksibel, memungkinkan kontrol atas kompresi tingkat chunk dan level sampel untuk setiap kolom atau tensor. Fitur ini menghilangkan kebutuhan untuk kompresi tambahan seperti ZSTD, yang sebaliknya akan menuntut lebih banyak siklus CPU untuk dekompresi di atas format seperti JPEG.
Mengocok: MDS saat ini menawarkan strategi pengertian yang lebih maju.
Kontrol Versi & Dukungan Visualisasi: Fitur penting dari Deep Lake adalah kontrol versi asli dan visualisasi data in-browser, fitur yang tidak ada untuk format data mosaiCML. Ini dapat memberikan keuntungan yang signifikan dalam mengelola, memahami, dan melacak berbagai versi data.

Deep Lake vs TensorFlow Datasets (TFD)

Deep Lake dan TFDS menghubungkan kumpulan data populer dengan mulus ke kerangka kerja ML. Dataset Deep Lake kompatibel dengan Pytorch dan TensorFlow, sedangkan TFD hanya kompatibel dengan TensorFlow. Perbedaan utama antara Deep Lake dan TFDS adalah bahwa dataset Deep Lake dirancang untuk streaming dari cloud, sedangkan TFD harus diunduh secara lokal sebelum digunakan. Akibatnya, dengan Deep Lake, seseorang dapat mengimpor kumpulan data langsung dari set data tensorflow dan mengalirkannya ke Pytorch atau TensorFlow. Selain menyediakan akses ke kumpulan data yang tersedia untuk umum, Deep Lake juga menawarkan alat yang kuat untuk membuat kumpulan data khusus, menyimpannya di berbagai penyedia penyimpanan cloud, dan berkolaborasi dengan orang lain melalui API sederhana. TFDS terutama difokuskan pada memberikan akses mudah publik ke kumpulan data yang tersedia secara umum, dan manajemen kumpulan data khusus bukanlah fokus utama. Artikel perbandingan lengkap dapat ditemukan di sini.

Danau Deep vs Huggingface

Deep Lake dan Huggingface menawarkan akses ke set data populer, tetapi Deep Lake terutama berfokus pada visi komputer, sedangkan Huggingface berfokus pada pemrosesan bahasa alami. Transformasi HuggingFace dan alat komputasi lainnya untuk NLP tidak analog dengan fitur yang ditawarkan oleh Deep Lake.

Deep Lake vs Webdatasets

Deep Lake dan WebDatasets keduanya menawarkan streaming data cepat di seluruh jaringan. Mereka memiliki kecepatan mengukus yang hampir identik karena permintaan jaringan dan struktur data yang mendasarinya sangat mirip. Namun, Deep Lake menawarkan akses acak yang unggul dan pengocokan, API sederhana adalah di Python alih-alih baris perintah, dan Deep Lake memungkinkan pengindeksan sederhana dan modifikasi dataset tanpa harus membuatnya kembali.

Danau Deep vs Zarr

Deep Lake dan Zarr keduanya menawarkan penyimpanan data sebagai array yang dipotong. Namun, Deep Lake terutama dirancang untuk mengembalikan data sebagai array menggunakan API sederhana, daripada benar -benar menyimpan array mentah (meskipun itu juga mungkin). Deep Lake menyimpan data dalam format yang dioptimalkan-kasus, seperti JPEG atau PNG untuk gambar, atau MP4 untuk video, dan pengguna memperlakukan data seolah-olah itu adalah array, karena Deep Lake menangani semua pemrosesan data di antaranya. Deep Lake menawarkan lebih banyak fleksibilitas untuk menyimpan array dengan bentuk dinamis (Tensor Ragged), dan menyediakan beberapa fitur yang tidak tersedia secara naif di Zarr seperti kontrol versi, streaming data, dan menghubungkan data ke kerangka kerja ML.

Masyarakat

Bergabunglah dengan komunitas Slack kami untuk mempelajari lebih lanjut tentang manajemen dataset yang tidak terstruktur menggunakan Deep Lake dan untuk mendapatkan bantuan dari tim ActiveLoop dan pengguna lainnya.

Kami menyukai umpan balik Anda dengan menyelesaikan survei 3 menit kami.

Seperti biasa, terima kasih kepada kontributor kami yang luar biasa!

Dibuat dengan kontributor-IMG.

Harap baca Contributing.md untuk memulai dengan memberikan kontribusi ke Deep Lake.

Lencana ReadMe

Menggunakan Deep Lake? Tambahkan lencana readme untuk memberi tahu semua orang:

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

Penafian

Lisensi dataset

Pengguna Deep Lake mungkin memiliki akses ke berbagai set data yang tersedia untuk umum. Kami tidak meng -host atau mendistribusikan set data ini, menjamin kualitas atau keadilannya, atau mengklaim bahwa Anda memiliki lisensi untuk menggunakan set data. Adalah tanggung jawab Anda untuk menentukan apakah Anda memiliki izin untuk menggunakan set data di bawah lisensi mereka.

Jika Anda seorang pemilik dataset dan tidak ingin dataset Anda dimasukkan ke dalam perpustakaan ini, silakan hubungi melalui masalah GitHub. Terima kasih atas kontribusi Anda untuk komunitas ML!

Pelacakan Penggunaan

Secara default, kami mengumpulkan data penggunaan menggunakan Bugout (inilah kode yang melakukannya). Itu tidak mengumpulkan data pengguna selain data alamat IP yang dianonimkan, dan hanya mencatat tindakan Perpustakaan Danau Deep. Ini membantu tim kami memahami bagaimana alat ini digunakan dan bagaimana membangun fitur yang penting bagi Anda! Setelah Anda mendaftar dengan ActiveLoop, data tidak lagi anonim. Anda selalu dapat memilih pelaporan dengan mengatur BUGGER_OFF variabel lingkungan ke True :

Kutipan

Jika Anda menggunakan Deep Lake dalam riset Anda, silakan kutip ActiveLoop menggunakan:

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

Pengakuan

Teknologi ini terinspirasi oleh pekerjaan penelitian kami di Universitas Princeton. Kami ingin mengucapkan terima kasih kepada William Silversmith @seunglab untuk alat volume awannya yang luar biasa.

Memperluas

Informasi Tambahan

Versi v4.0.3
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-23
ukuran 56.75KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua