Deep Lake เป็นฐานข้อมูลสำหรับ AI ที่ขับเคลื่อนโดยรูปแบบการจัดเก็บที่เหมาะสำหรับแอปพลิเคชันการเรียนรู้ลึก ทะเลสาบลึกสามารถใช้สำหรับ:
Deep Lake ช่วยลดความซับซ้อนของการปรับใช้ผลิตภัณฑ์ที่ใช้ LLM ระดับองค์กรโดยเสนอที่เก็บข้อมูลสำหรับทุกประเภทข้อมูล (Embeddings, เสียง, ข้อความ, วิดีโอ, รูปภาพ, dicom, PDF, คำอธิบายประกอบและอื่น ๆ ) การสืบค้นและการค้นหาเวกเตอร์ โมเดลในระดับการกำหนดเวอร์ชันข้อมูลและเชื้อสายและการรวมเข้ากับเครื่องมือยอดนิยมเช่น Langchain, LlamaineDex, น้ำหนักและอคติและอื่น ๆ อีกมากมาย Deep Lake ทำงานร่วมกับข้อมูลทุกขนาดมันไม่มีเซิร์ฟเวอร์และช่วยให้คุณสามารถเก็บข้อมูลทั้งหมดของคุณไว้ในคลาวด์ของคุณเองและในที่เดียว Deep Lake ถูกใช้โดย Intel, Bayer Radiology, Matterport, Zero Systems, Red Cross, Yale, & Oxford
สามารถติดตั้ง Deep Lake ได้โดยใช้ PIP:
pip install deeplakeการใช้ Deep Lake เป็นร้านค้าเวกเตอร์สำหรับการสร้างแอปพลิเคชัน LLM:
ใช้ Deep Lake สำหรับการจัดการข้อมูลในขณะที่ฝึกอบรมแบบจำลองการเรียนรู้ลึก:
Deep Lake นำเสนอการบูรณาการกับเครื่องมืออื่น ๆ เพื่อปรับปรุงเวิร์กโฟลว์การเรียนรู้ลึกของคุณ การรวมปัจจุบันรวมถึง:
การเริ่มต้นคำแนะนำตัวอย่างการสอนการอ้างอิง API และข้อมูลที่เป็นประโยชน์อื่น ๆ สามารถพบได้ในหน้าเอกสารของเรา
ผู้ใช้ Deep Lake สามารถเข้าถึงและแสดงภาพชุดข้อมูลยอดนิยมที่หลากหลายผ่านการรวมเข้ากับแอพของ Deep Lake ฟรี มหาวิทยาลัยสามารถรับการจัดเก็บข้อมูลได้สูงสุด 1TB และการสืบค้น 100,000 ต่อเดือนบนฐานข้อมูลเทนเซอร์ฟรีต่อเดือน แชทในเว็บไซต์ของเรา: เพื่อรับสิทธิ์การเข้าถึง!
ทั้ง Deep Lake & Chromadb ช่วยให้ผู้ใช้สามารถจัดเก็บและค้นหาเวกเตอร์ (Embeddings) และเสนอการรวมเข้ากับ Langchain และ Llamaidex อย่างไรก็ตามพวกเขามีความแตกต่างทางสถาปัตยกรรมมาก Chromadb เป็นฐานข้อมูลเวกเตอร์ที่สามารถปรับใช้ในเครื่องหรือบนเซิร์ฟเวอร์โดยใช้ Docker และจะนำเสนอโซลูชันที่โฮสต์ในไม่ช้า Deep Lake เป็นร้านค้าเวกเตอร์ที่ไม่มีเซิร์ฟเวอร์ที่ปรับใช้บนคลาวด์ของผู้ใช้ในพื้นที่หรือในหน่วยความจำ การคำนวณทั้งหมดเรียกใช้ฝั่งไคลเอ็นต์ซึ่งช่วยให้ผู้ใช้สามารถรองรับแอพการผลิตที่มีน้ำหนักเบาในไม่กี่วินาที ซึ่งแตกต่างจาก Chromadb รูปแบบข้อมูลของ Deep Lake สามารถจัดเก็บข้อมูลดิบเช่นรูปภาพวิดีโอและข้อความนอกเหนือจากการฝังตัว Chromadb ถูก จำกัด เมตาดาต้าเบาที่ด้านบนของการฝังตัวและไม่มีการสร้างภาพข้อมูล ชุดข้อมูล Deep Lake สามารถมองเห็นได้และควบคุมเวอร์ชัน Deep Lake ยังมี Dataloader นักแสดงสำหรับการปรับแต่งรุ่นภาษาขนาดใหญ่ของคุณ
ทั้ง Deep Lake และ Pinecone ช่วยให้ผู้ใช้สามารถจัดเก็บและค้นหาเวกเตอร์ (Embeddings) และเสนอการรวมเข้ากับ Langchain และ Llamaindex อย่างไรก็ตามพวกเขามีความแตกต่างทางสถาปัตยกรรมมาก Pinecone เป็นฐานข้อมูลเวกเตอร์ที่ได้รับการจัดการอย่างสมบูรณ์ซึ่งได้รับการปรับให้เหมาะสมสำหรับแอปพลิเคชันที่ต้องการสูงซึ่งต้องการการค้นหาเวกเตอร์พันล้าน Deep Lake ไม่มีเซิร์ฟเวอร์ การคำนวณทั้งหมดเรียกใช้ฝั่งไคลเอ็นต์ซึ่งช่วยให้ผู้ใช้สามารถเริ่มต้นได้ในไม่กี่วินาที ซึ่งแตกต่างจาก Pinecone รูปแบบข้อมูลของ Deep Lake สามารถจัดเก็บข้อมูลดิบเช่นรูปภาพวิดีโอและข้อความนอกเหนือจากการฝังตัว ชุดข้อมูล Deep Lake สามารถมองเห็นได้และควบคุมเวอร์ชัน Pinecone จำกัด เมตาดาต้าแสงที่ด้านบนของการฝังตัวและไม่มีการสร้างภาพข้อมูล Deep Lake ยังมี Dataloader นักแสดงสำหรับการปรับแต่งรุ่นภาษาขนาดใหญ่ของคุณ
ทั้ง Deep Lake และ Weaviate ช่วยให้ผู้ใช้สามารถจัดเก็บและค้นหาเวกเตอร์ (Embeddings) และเสนอการรวมเข้ากับ Langchain และ Llamaindex อย่างไรก็ตามพวกเขามีความแตกต่างทางสถาปัตยกรรมมาก Weaviate เป็นฐานข้อมูลเวกเตอร์ที่สามารถปรับใช้ในบริการที่มีการจัดการหรือโดยผู้ใช้ผ่าน Kubernetes หรือ Docker Deep Lake ไม่มีเซิร์ฟเวอร์ การคำนวณทั้งหมดเรียกใช้ฝั่งไคลเอ็นต์ซึ่งช่วยให้ผู้ใช้สามารถรองรับแอพการผลิตที่มีน้ำหนักเบาในไม่กี่วินาที ซึ่งแตกต่างจาก Weaviate รูปแบบข้อมูลของ Deep Lake สามารถจัดเก็บข้อมูลดิบเช่นรูปภาพวิดีโอและข้อความนอกเหนือจากการฝังตัว ชุดข้อมูล Deep Lake สามารถมองเห็นได้และควบคุมเวอร์ชัน Weaviate ถูก จำกัด ให้เมตาดาต้าเบาที่ด้านบนของการฝังตัวและไม่มีการสร้างภาพข้อมูล Deep Lake ยังมี Dataloader นักแสดงสำหรับการปรับแต่งรุ่นภาษาขนาดใหญ่ของคุณ
Deep Lake และ DVC เสนอชุดข้อมูลชุดข้อมูลคล้ายกับ GIT สำหรับข้อมูล แต่วิธีการจัดเก็บข้อมูลแตกต่างกันอย่างมีนัยสำคัญ Deep Lake แปลงและเก็บข้อมูลเป็นอาร์เรย์บีบอัดแบบก้อนซึ่งช่วยให้การสตรีมอย่างรวดเร็วไปยังรุ่น ML ในขณะที่ DVC ทำงานบนข้อมูลที่เก็บไว้ในโครงสร้างไฟล์แบบดั้งเดิมที่มีประสิทธิภาพน้อยกว่า รูปแบบ Deep Lake ทำให้การกำหนดเวอร์ชันชุดข้อมูลง่ายขึ้นอย่างมากเมื่อเทียบกับโครงสร้างไฟล์แบบดั้งเดิมโดย DVC เมื่อชุดข้อมูลประกอบด้วยไฟล์จำนวนมาก (เช่นรูปภาพจำนวนมาก) ความแตกต่างเพิ่มเติมคือ DVC ใช้อินเทอร์เฟซบรรทัดคำสั่งเป็นหลักในขณะที่ Deep Lake เป็นแพ็คเกจ Python สุดท้าย Deep Lake นำเสนอ API เพื่อเชื่อมต่อชุดข้อมูลกับเฟรมเวิร์ก ML และเครื่องมือ ML ทั่วไปอื่น ๆ ได้อย่างง่ายดายและเปิดใช้งานการสร้างภาพชุดข้อมูลทันทีผ่านเครื่องมือสร้างภาพของ ActivEloop
Deep Lake และ TFDs เชื่อมต่อชุดข้อมูลยอดนิยมกับเฟรมเวิร์ก ML ได้อย่างราบรื่น ชุดข้อมูล Deep Lake เข้ากันได้กับทั้ง pytorch และ tensorflow ในขณะที่ TFDs เข้ากันได้กับ tensorflow เท่านั้น ความแตกต่างที่สำคัญระหว่าง Deep Lake และ TFD คือชุดข้อมูล Deep Lake ได้รับการออกแบบมาสำหรับการสตรีมจากคลาวด์ในขณะที่ TFD จะต้องดาวน์โหลดในเครื่องก่อนใช้งาน ด้วยเหตุนี้ด้วยทะเลสาบลึกหนึ่งสามารถนำเข้าชุดข้อมูลโดยตรงจากชุดข้อมูล TensorFlow และสตรีมไปยัง Pytorch หรือ Tensorflow นอกเหนือจากการให้การเข้าถึงชุดข้อมูลที่เป็นที่นิยมในที่สาธารณะ Deep Lake ยังมีเครื่องมือที่ทรงพลังสำหรับการสร้างชุดข้อมูลที่กำหนดเองจัดเก็บไว้ในผู้ให้บริการจัดเก็บข้อมูลคลาวด์ที่หลากหลายและร่วมมือกับผู้อื่นผ่าน Simple API TFDs มุ่งเน้นไปที่การให้สาธารณะเข้าถึงชุดข้อมูลที่มีอยู่ทั่วไปได้ง่ายและการจัดการชุดข้อมูลที่กำหนดเองไม่ใช่จุดสนใจหลัก บทความเปรียบเทียบเต็มสามารถพบได้ที่นี่
เข้าร่วม ชุมชน Slack ของเราเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการจัดการชุดข้อมูลที่ไม่มีโครงสร้างโดยใช้ Deep Lake และรับความช่วยเหลือจากทีม ActivEloop และผู้ใช้รายอื่น
เราชอบความคิดเห็นของคุณโดยทำ แบบสำรวจ 3 นาที
เช่นเคยขอบคุณผู้มีส่วนร่วมที่น่าทึ่งของเรา!
ทำกับผู้มีส่วนร่วม-IMG
โปรดอ่านการสนับสนุน. md เพื่อเริ่มต้นกับการบริจาคให้กับ Deep Lake
ใช้ทะเลสาบลึก? เพิ่มตรา readme เพื่อแจ้งให้ทุกคนทราบ:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) ผู้ใช้ Deep Lake อาจเข้าถึงชุดข้อมูลที่เปิดเผยต่อสาธารณะได้หลากหลาย เราไม่ได้โฮสต์หรือแจกจ่ายชุดข้อมูลเหล่านี้บัตรกำนัลคุณภาพหรือความยุติธรรมของพวกเขาหรืออ้างว่าคุณมีใบอนุญาตในการใช้ชุดข้อมูล เป็นความรับผิดชอบของคุณในการพิจารณาว่าคุณได้รับอนุญาตให้ใช้ชุดข้อมูลภายใต้ใบอนุญาตของพวกเขาหรือไม่
หากคุณเป็นเจ้าของชุดข้อมูลและไม่ต้องการให้ชุดข้อมูลของคุณรวมอยู่ในห้องสมุดนี้โปรดติดต่อผ่านปัญหา GitHub ขอบคุณสำหรับการบริจาคให้กับชุมชน ML!
โดยค่าเริ่มต้นเรารวบรวมข้อมูลการใช้งานโดยใช้ Bugout (นี่คือรหัสที่ทำ) มันไม่ได้รวบรวมข้อมูลผู้ใช้นอกเหนือจากข้อมูลที่อยู่ IP ที่ไม่ระบุชื่อและจะบันทึกการกระทำของ Deep Lake Library เท่านั้น สิ่งนี้ช่วยให้ทีมของเราเข้าใจวิธีการใช้เครื่องมือและวิธีการสร้างคุณสมบัติที่สำคัญสำหรับคุณ! หลังจากที่คุณลงทะเบียนกับ ActivEloop ข้อมูลจะไม่ระบุชื่ออีกต่อไป คุณสามารถยกเลิกการรายงานได้ตลอดเวลาโดยการตั้งค่าตัวแปรสภาพแวดล้อม BUGGER_OFF เป็น True :
หากคุณใช้ Deep Lake ในการวิจัยของคุณโปรดอ้างอิง Activeloop โดยใช้:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}เทคโนโลยีนี้ได้รับแรงบันดาลใจจากงานวิจัยของเราที่ Princeton University เราขอขอบคุณ William Silversmith @seunglab สำหรับเครื่องมือปริมาณคลาวด์ที่ยอดเยี่ยมของเขา