Deep Lake adalah database untuk AI yang ditenagai oleh format penyimpanan yang dioptimalkan untuk aplikasi belajar yang dalam. Deep Lake dapat digunakan untuk:
Deep Lake menyederhanakan penyebaran produk berbasis LLM kelas perusahaan dengan menawarkan penyimpanan untuk semua tipe data (embeddings, audio, teks, video, gambar, dicom, PDF, anotasi, dan banyak lagi), pencarian dan pencarian vektor, streaming data saat pelatihan saat pelatihan saat melatih saat Model pada skala, versi data dan garis keturunan, dan integrasi dengan alat -alat populer seperti langchain, llamaindex, bobot & bias, dan banyak lagi. Deep Lake berfungsi dengan data dengan ukuran apa pun, itu tanpa server, dan memungkinkan Anda untuk menyimpan semua data Anda di cloud Anda sendiri dan di satu tempat. Deep Lake digunakan oleh Intel, Radiologi Bayer, Matterport, Sistem Zero, Palang Merah, Yale, & Oxford.
Deep Lake dapat dipasang menggunakan PIP:
pip install deeplakeMenggunakan Deep Lake sebagai toko vektor untuk membangun aplikasi LLM:
Menggunakan Deep Lake untuk mengelola data saat melatih model pembelajaran yang mendalam:
Deep Lake menawarkan integrasi dengan alat lain untuk merampingkan alur kerja pembelajaran mendalam Anda. Integrasi saat ini meliputi:
Memulai pemandu, contoh, tutorial, referensi API, dan informasi berguna lainnya dapat ditemukan di halaman dokumentasi kami.
Pengguna Deep Lake dapat mengakses dan memvisualisasikan berbagai dataset populer melalui integrasi gratis dengan aplikasi Deep Lake. Universitas dapat memperoleh penyimpanan data hingga 1TB dan 100.000 kueri bulanan pada database Tensor secara gratis per bulan. Mengobrol di situs web kami: untuk mengklaim aksesnya!
Baik Deep Lake & Chromadb memungkinkan pengguna untuk menyimpan dan mencari vektor (embeddings) dan menawarkan integrasi dengan langchain dan llamaindex. Namun, mereka secara arsitektur sangat berbeda. Chromadb adalah database vektor yang dapat digunakan secara lokal atau di server menggunakan Docker dan akan segera menawarkan solusi yang di -host. Deep Lake adalah toko vektor tanpa server yang digunakan di cloud pengguna, lokal, atau dalam memori. Semua perhitungan berjalan di sisi klien, yang memungkinkan pengguna untuk mendukung aplikasi produksi ringan dalam hitungan detik. Tidak seperti Chromadb, format data Deep Lake dapat menyimpan data mentah seperti gambar, video, dan teks, selain embeddings. Chromadb terbatas pada metadata cahaya di atas embeddings dan tidak memiliki visualisasi. Dataset Deep Lake dapat divisualisasikan dan dikendalikan versi. Deep Lake juga memiliki dataloader performant untuk menyempurnakan model bahasa besar Anda.
Baik Deep Lake dan Pinecone memungkinkan pengguna untuk menyimpan dan mencari vektor (embeddings) dan menawarkan integrasi dengan langchain dan llamaindex. Namun, mereka secara arsitektur sangat berbeda. Pinecone adalah basis data vektor yang dikelola penuh yang dioptimalkan untuk aplikasi yang sangat menuntut yang membutuhkan pencarian miliaran vektor. Deep Lake tidak server. Semua perhitungan menjalankan sisi klien, yang memungkinkan pengguna untuk memulai dalam hitungan detik. Tidak seperti Pinecone, format data Deep Lake dapat menyimpan data mentah seperti gambar, video, dan teks, selain embeddings. Dataset Deep Lake dapat divisualisasikan dan dikendalikan versi. Pinecone terbatas pada metadata cahaya di atas embeddings dan tidak memiliki visualisasi. Deep Lake juga memiliki dataloader performant untuk menyempurnakan model bahasa besar Anda.
Baik Deep Lake dan Weaviate memungkinkan pengguna untuk menyimpan dan mencari vektor (embeddings) dan menawarkan integrasi dengan langchain dan llamaindex. Namun, mereka secara arsitektur sangat berbeda. Weaviate adalah database vektor yang dapat digunakan dalam layanan yang dikelola atau oleh pengguna melalui Kubernetes atau Docker. Deep Lake tidak server. Semua perhitungan berjalan di sisi klien, yang memungkinkan pengguna untuk mendukung aplikasi produksi ringan dalam hitungan detik. Tidak seperti Weaviate, format data Deep Lake dapat menyimpan data mentah seperti gambar, video, dan teks, selain embeddings. Dataset Deep Lake dapat divisualisasikan dan dikendalikan versi. Weaviate terbatas pada metadata cahaya di atas embeddings dan tidak memiliki visualisasi. Deep Lake juga memiliki dataloader performant untuk menyempurnakan model bahasa besar Anda.
Deep Lake dan DVC menawarkan kontrol versi dataset yang mirip dengan GIT untuk data, tetapi metode mereka untuk menyimpan data berbeda secara signifikan. Deep Lake mengkonversi dan menyimpan data sebagai array terkompresi yang dipotong, yang memungkinkan streaming cepat ke model ML, sedangkan DVC beroperasi di atas data yang disimpan dalam struktur file tradisional yang kurang efisien. Format Danau Deep membuat versi dataset secara signifikan lebih mudah dibandingkan dengan struktur file tradisional oleh DVC ketika dataset terdiri dari banyak file (yaitu, banyak gambar). Perbedaan tambahan adalah bahwa DVC terutama menggunakan antarmuka baris perintah, sedangkan Deep Lake adalah paket Python. Terakhir, Deep Lake menawarkan API untuk dengan mudah menghubungkan dataset ke kerangka kerja ML dan alat ML umum lainnya dan memungkinkan visualisasi dataset instan melalui alat visualisasi ActiveLoop.
Deep Lake dan TFDS menghubungkan kumpulan data populer dengan mulus ke kerangka kerja ML. Dataset Deep Lake kompatibel dengan Pytorch dan TensorFlow, sedangkan TFD hanya kompatibel dengan TensorFlow. Perbedaan utama antara Deep Lake dan TFDS adalah bahwa dataset Deep Lake dirancang untuk streaming dari cloud, sedangkan TFD harus diunduh secara lokal sebelum digunakan. Akibatnya, dengan Deep Lake, seseorang dapat mengimpor kumpulan data langsung dari set data tensorflow dan mengalirkannya ke Pytorch atau TensorFlow. Selain menyediakan akses ke kumpulan data yang tersedia untuk umum, Deep Lake juga menawarkan alat yang kuat untuk membuat kumpulan data khusus, menyimpannya di berbagai penyedia penyimpanan cloud, dan berkolaborasi dengan orang lain melalui API sederhana. TFDS terutama difokuskan pada memberikan akses mudah publik ke kumpulan data yang tersedia secara umum, dan manajemen kumpulan data khusus bukanlah fokus utama. Artikel perbandingan lengkap dapat ditemukan di sini.
Bergabunglah dengan komunitas Slack kami untuk mempelajari lebih lanjut tentang manajemen dataset yang tidak terstruktur menggunakan Deep Lake dan untuk mendapatkan bantuan dari tim ActiveLoop dan pengguna lainnya.
Kami menyukai umpan balik Anda dengan menyelesaikan survei 3 menit kami.
Seperti biasa, terima kasih kepada kontributor kami yang luar biasa!
Dibuat dengan kontributor-IMG.
Harap baca Contributing.md untuk memulai dengan memberikan kontribusi ke Deep Lake.
Menggunakan Deep Lake? Tambahkan lencana readme untuk memberi tahu semua orang:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) Pengguna Deep Lake mungkin memiliki akses ke berbagai set data yang tersedia untuk umum. Kami tidak meng -host atau mendistribusikan set data ini, menjamin kualitas atau keadilannya, atau mengklaim bahwa Anda memiliki lisensi untuk menggunakan set data. Adalah tanggung jawab Anda untuk menentukan apakah Anda memiliki izin untuk menggunakan set data di bawah lisensi mereka.
Jika Anda seorang pemilik dataset dan tidak ingin dataset Anda dimasukkan ke dalam perpustakaan ini, silakan hubungi melalui masalah GitHub. Terima kasih atas kontribusi Anda untuk komunitas ML!
Secara default, kami mengumpulkan data penggunaan menggunakan Bugout (inilah kode yang melakukannya). Itu tidak mengumpulkan data pengguna selain data alamat IP yang dianonimkan, dan hanya mencatat tindakan Perpustakaan Danau Deep. Ini membantu tim kami memahami bagaimana alat ini digunakan dan bagaimana membangun fitur yang penting bagi Anda! Setelah Anda mendaftar dengan ActiveLoop, data tidak lagi anonim. Anda selalu dapat memilih pelaporan dengan mengatur BUGGER_OFF variabel lingkungan ke True :
Jika Anda menggunakan Deep Lake dalam riset Anda, silakan kutip ActiveLoop menggunakan:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}Teknologi ini terinspirasi oleh pekerjaan penelitian kami di Universitas Princeton. Kami ingin mengucapkan terima kasih kepada William Silversmith @seunglab untuk alat volume awannya yang luar biasa.