Deep Lake هي قاعدة بيانات لـ AI مدعومة بتنسيق تخزين تم تحسينها لتطبيقات التعلم العميق. يمكن استخدام البحيرة العميقة لـ:
تعمل Deep Lake على تبسيط نشر المنتجات المستندة إلى LLM على مستوى المؤسسات من خلال تقديم تخزين لجميع أنواع البيانات (التضمينات ، والصوت ، والنص ، والفيديو ، والصور ، و DICOM ، و PDF ، والتعليقات التوضيحية ، والمزيد) ، والاستعلام والبحث في الموجهات ، وتدفق البيانات أثناء التدريب النماذج على نطاق واسع ، وإصدار البيانات والنسب ، والتكامل مع الأدوات الشائعة مثل Langchain و Llamaindex والأوزان والتحيزات وغيرها الكثير. تعمل Deep Lake مع بيانات من أي حجم ، وهي بدون خادم ، وتمكنك من تخزين جميع بياناتك في السحابة الخاصة بك وفي مكان واحد. يستخدم Deep Lake بواسطة Intel و Bayer Radiology و Matterport و Zero Systems و Red Cross و Yale و Oxford.
يمكن تثبيت Deep Lake باستخدام PIP:
pip install deeplakeباستخدام Deep Lake كمتجر متجه لبناء تطبيقات LLM:
باستخدام Deep Lake لإدارة البيانات أثناء تدريب نماذج التعلم العميق:
تقدم Deep Lake تكاملًا مع أدوات أخرى من أجل تبسيط سير العمل التعليمي العميق. تشمل التكامل الحالي:
يمكن العثور على أدلة البدء ، والأمثلة ، والدروس التعليمية ، ومرجع API ، وغيرها من المعلومات المفيدة على صفحة الوثائق الخاصة بنا.
يمكن لمستخدمي Deep Lake الوصول إلى مجموعة متنوعة من مجموعات البيانات الشائعة من خلال تكامل مجاني مع تطبيق Deep Lake. يمكن للجامعات الحصول على ما يصل إلى 1 تيرابايت من تخزين البيانات و 100000 استعلامات شهرية على قاعدة بيانات الموتر مجانًا شهريًا. الدردشة في موقعنا على الإنترنت: للمطالبة بالوصول!
يمكّن كل من Deep Lake & Chromadb المستخدمين من تخزين المتجهات والبحث (التضمين) وتقديم تكامل مع Langchain و Llamaindex. ومع ذلك ، فهي مختلفة من الناحية المعمارية. ChromadB هي قاعدة بيانات متجه يمكن نشرها محليًا أو على خادم باستخدام Docker وسيقدم حلًا مستضافًا قريبًا. Deep Lake هو متجر متجه بدون خادم يتم نشره على السحابة الخاصة بالمستخدم ، محليًا ، أو في الذاكرة. تعمل جميع الحسابات على جانب العميل ، مما يمكّن المستخدمين من دعم تطبيقات الإنتاج الخفيفة في ثوانٍ. على عكس Chromadb ، يمكن لتنسيق بيانات Deep Lake تخزين البيانات الأولية مثل الصور ومقاطع الفيديو والنص ، بالإضافة إلى التضمينات. يقتصر Chromadb على البيانات الوصفية الخفيفة أعلى التضمينات وليس لها أي تصور. يمكن تصور مجموعات بيانات البحيرة العميقة والتحكم في الإصدار. لدى Deep Lake أيضًا dataloader أداء لضبط نماذج اللغة الكبيرة الخاصة بك.
يمكّن كل من Deep Lake و Pinecone المستخدمين من تخزين المتجهات والبحث (التضمين) وتقديم تكامل مع Langchain و Llamaindex. ومع ذلك ، فهي مختلفة من الناحية المعمارية. Pinecone عبارة عن قاعدة بيانات متجه تتم إدارتها بالكامل يتم تحسينها للتطبيقات الشديدة التي تتطلب البحث عن مليارات المتجهات. البحيرة العميقة بدون خادم. تعمل جميع الحسابات على جانب العميل ، مما يمكّن المستخدمين من البدء في ثوانٍ. على عكس Pinecone ، يمكن لتنسيق بيانات Deep Lake تخزين البيانات الخام مثل الصور ومقاطع الفيديو والنص ، بالإضافة إلى التضمينات. يمكن تصور مجموعات بيانات البحيرة العميقة والتحكم في الإصدار. يقتصر Pinecone على البيانات الوصفية الخفيفة أعلى التضمينات وليس لديه تصور. لدى Deep Lake أيضًا dataloader أداء لضبط نماذج اللغة الكبيرة الخاصة بك.
يمكّن كل من Deep Lake و Weaviate المستخدمين من تخزين المتجهات والبحث (التضمين) وتقديم تكامل مع Langchain و Llamaindex. ومع ذلك ، فهي مختلفة من الناحية المعمارية. Weaviate هي قاعدة بيانات متجه يمكن نشرها في خدمة مُدارة أو من قبل المستخدم عبر Kubernetes أو Docker. البحيرة العميقة بدون خادم. تعمل جميع الحسابات على جانب العميل ، مما يمكّن المستخدمين من دعم تطبيقات الإنتاج الخفيفة في ثوانٍ. على عكس Weaviate ، يمكن لتنسيق بيانات Deep Lake تخزين البيانات الأولية مثل الصور ومقاطع الفيديو والنص ، بالإضافة إلى التضمينات. يمكن تصور مجموعات بيانات البحيرة العميقة والتحكم في الإصدار. يقتصر Weaviate على البيانات الوصفية الخفيفة أعلى التضمينات وليس لها أي تصور. لدى Deep Lake أيضًا dataloader أداء لضبط نماذج اللغة الكبيرة الخاصة بك.
تقدم Deep Lake و DVC عنصر تحكم في إصدار مجموعة البيانات على غرار GIT للبيانات ، ولكن طرقها لتخزين البيانات تختلف اختلافًا كبيرًا. تقوم Deep Lake بتحويل البيانات وتخزينها كصفائف مضغوطة مكثف ، والتي تتيح البث السريع إلى نماذج ML ، في حين أن DVC تعمل فوق البيانات المخزنة في هياكل الملفات التقليدية الأقل كفاءة. يجعل تنسيق Deep Lake إصدار مجموعة البيانات أسهل بكثير مقارنة بهياكل الملفات التقليدية بواسطة DVC عندما تتكون مجموعات البيانات من العديد من الملفات (أي العديد من الصور). تمييز إضافي هو أن DVC يستخدم بشكل أساسي واجهة سطر الأوامر ، في حين أن Deep Lake هي حزمة Python. أخيرًا ، توفر Deep Lake واجهة برمجة تطبيقات لتوصيل مجموعات البيانات بسهولة بأطر ML وأدوات ML الشائعة الأخرى وتمكين تصور مجموعة البيانات الفورية من خلال أداة تصور Activeloop.
تقوم Deep Lake و TFDs بتوصيل مجموعات البيانات الشائعة بسلاسة بأطر عمل ML. تتوافق مجموعات بيانات Deep Lake مع كل من Pytorch و TensorFlow ، في حين أن TFDs متوافقة فقط مع TensorFlow. يتمثل الفرق الرئيسي بين Deep Lake و TFDs في أن مجموعات بيانات Deep Lake مصممة للبث من السحابة ، في حين يجب تنزيل TFDs محليًا قبل الاستخدام. نتيجة لذلك ، مع Deep Lake ، يمكن للمرء استيراد مجموعات البيانات مباشرة من مجموعات بيانات TensorFlow ودفقها إما إلى Pytorch أو TensorFlow. بالإضافة إلى توفير الوصول إلى مجموعات البيانات الشهيرة للجمهور ، تقدم Deep Lake أيضًا أدوات قوية لإنشاء مجموعات بيانات مخصصة وتخزينها على مجموعة متنوعة من مزودي التخزين السحابي والتعاون مع الآخرين عبر API البسيط. تركز TFDS بشكل أساسي على منح العام السهل الوصول إلى مجموعات البيانات المتاحة بشكل شائع ، كما أن إدارة مجموعات البيانات المخصصة ليست هي التركيز الأساسي. يمكن العثور على مقالة مقارنة كاملة هنا.
انضم إلى مجتمع Slack لمعرفة المزيد حول إدارة مجموعات البيانات غير المهيكلة باستخدام Deep Lake ولتقديم المساعدة من فريق Activeloop والمستخدمين الآخرين.
نحن نحب ملاحظاتك من خلال استكمال استطلاعنا لمدة 3 دقائق.
كما هو الحال دائمًا ، بفضل مساهمينا المذهلين!
صنع مع المساهمين-IMG.
يرجى قراءة المساهمة. md للبدء في تقديم مساهمات في Deep Lake.
باستخدام أعماق البحيرة؟ أضف شارة readme لإعلام الجميع:
[ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake ) قد يكون لدى مستخدمي Deep Lake الوصول إلى مجموعة متنوعة من مجموعات البيانات المتاحة للجمهور. نحن لا نستضيف أو نوزع مجموعات البيانات هذه ، ونهتم بجودتها أو الإنصاف ، أو ندعي أن لديك ترخيصًا لاستخدام مجموعات البيانات. تقع على عاتقك مسؤولية تحديد ما إذا كان لديك إذن لاستخدام مجموعات البيانات ضمن ترخيصها.
إذا كنت مالكًا لمجموعة البيانات ولا تريد تضمين مجموعة البيانات الخاصة بك في هذه المكتبة ، فيرجى الاتصال بمشكلة GitHub. شكرا لك على مساهمتك في مجتمع ML!
بشكل افتراضي ، نجمع بيانات الاستخدام باستخدام Bugout (إليك الرمز الذي يفعل ذلك). لا يجمع بيانات المستخدم بخلاف بيانات عنوان IP المجهولة ، ويقوم فقط بتسجيل إجراءات مكتبة Deep Lake الخاصة. يساعد هذا فريقنا على فهم كيفية استخدام الأداة وكيفية إنشاء ميزات مهمة لك! بعد التسجيل في Activeloop ، لم تعد البيانات مجهولة. يمكنك دائمًا إلغاء الاشتراك في الإبلاغ عن طريق تعيين متغير بيئي BUGGER_OFF إلى True :
إذا كنت تستخدم Seep Lake في بحثك ، فيرجى الاستشهاد بـ Activeloop باستخدام:
@ article {deeplake,
title = {Deep Lake: a Lakehouse for Deep Learning},
author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
booktitle={Proceedings of CIDR},
year = {2023},
}كانت هذه التكنولوجيا مستوحاة من أعمالنا البحثية في جامعة برينستون. نود أن نشكر William Silversmith seunglab على أدائه الحجم السحابي الرائع.