deeplake Download - deeplake Source Code Download

deeplake

شفرة المصدر الأخرى

v4.0.3

تنزيل

البحيرة العميقة: قاعدة بيانات لمنظمة العفو الدولية

مستندات • ابدأ • مرجع API • دورة Langchain & Vectordbs • مدونة • ورقة بيضاء • الركود • Twitter

ما هي البحيرة العميقة؟

Deep Lake هي قاعدة بيانات لـ AI مدعومة بتنسيق تخزين تم تحسينها لتطبيقات التعلم العميق. يمكن استخدام البحيرة العميقة لـ:

تخزين البيانات والبحث بالإضافة إلى المتجهات أثناء بناء تطبيقات LLM
إدارة مجموعات البيانات أثناء تدريب نماذج التعلم العميق

تعمل Deep Lake على تبسيط نشر المنتجات المستندة إلى LLM على مستوى المؤسسات من خلال تقديم تخزين لجميع أنواع البيانات (التضمينات ، والصوت ، والنص ، والفيديو ، والصور ، و DICOM ، و PDF ، والتعليقات التوضيحية ، والمزيد) ، والاستعلام والبحث في الموجهات ، وتدفق البيانات أثناء التدريب النماذج على نطاق واسع ، وإصدار البيانات والنسب ، والتكامل مع الأدوات الشائعة مثل Langchain و Llamaindex والأوزان والتحيزات وغيرها الكثير. تعمل Deep Lake مع بيانات من أي حجم ، وهي بدون خادم ، وتمكنك من تخزين جميع بياناتك في السحابة الخاصة بك وفي مكان واحد. يستخدم Deep Lake بواسطة Intel و Bayer Radiology و Matterport و Zero Systems و Red Cross و Yale و Oxford.

تشمل البحيرة العميقة الميزات التالية:

دعم متعدد الطبقات (S3 ، GCP ، Azure)

استخدم واجهة برمجة تطبيقات واحدة لتحميل وتنزيل ودفق مجموعات البيانات إلى/من S3 أو Azure أو GCP أو Activeloop Cloud أو التخزين المحلي أو التخزين في الذاكرة. متوافق مع أي تخزين متوافق مع S3 مثل Minio.

الضغط الأصلي مع فهرسة شبيهة بالسلال

تخزين الصور والصوت ومقاطع الفيديو في ضغطها الأصلي. شريحة وفهرس وتكرار وتفاعل بياناتك مثل مجموعة من المصفوفات numpy في ذاكرة نظامك. تعمل Deep Lake بتكاسل على تحميل البيانات فقط عند الحاجة ، على سبيل المثال ، عند تدريب نموذج أو تشغيل استفسارات.

dataloaders لأطر التعلم العميق الشعبية

تأتي Deep Lake مع Dataloaders المدمجة لـ Pytorch و TensorFlow. تدريب النموذج الخاص بك مع بضعة أسطر من التعليمات البرمجية - حتى أننا نعتني بخلط مجموعة البيانات. سائدا

التكامل مع الأدوات القوية

تتمتع Deep Lake بتكامل مع Langchain و Llamaindex كمتجر متجه لتطبيقات LLM ، والأوزان والتحيزات لسلالة البيانات أثناء التدريب النموذجي ، وكشف MMDENTOR لنماذج الكشف عن كائنات التدريب ، و MMSEMSTICATION لتدريب نماذج التجزئة الدلالية.

أكثر من 100+ صور ، ومجموعات بيانات ، ومجموعات بيانات صوتية شهيرة متوفرة في ثوانٍ

قام Deep Lake Community بتحميل 100+ صور ومقاطع فيديو وصوتية مثل Mnist و Coco و ImageNet و Cifar و Gtzan وغيرها.

دعم التصور الفوري في تطبيق Deep Lake

يتم تصور مجموعات بيانات Deep Lake على الفور مع الصناديق المحيطة والأقنعة والشروح وما إلى ذلك في Deep Lake Visualizer (انظر أدناه).

كيفية تثبيت أعماق البحيرة

يمكن تثبيت Deep Lake باستخدام PIP:

pip install deeplake

للوصول إلى جميع ميزات Deep Lake ، يرجى التسجيل في تطبيق Deep Lake.

؟ أمثلة رمز البحيرة العميقة حسب التطبيق

تطبيقات متجر المتجهات

باستخدام Deep Lake كمتجر متجه لبناء تطبيقات LLM:

- متجه متجر QuickStart

- دروس المتجر المتجهات

- تكامل Langchain

- تكامل Llamaindex

- بحث عن تشابه الصورة مع ديب ليك

تطبيقات التعلم العميق

باستخدام Deep Lake لإدارة البيانات أثناء تدريب نماذج التعلم العميق:

- التعلم العميق Quickstart

- دروس لنماذج التدريب

التكامل

تقدم Deep Lake تكاملًا مع أدوات أخرى من أجل تبسيط سير العمل التعليمي العميق. تشمل التكامل الحالي:

تطبيقات LLM
- استخدم Deep Lake كمتجر متجه لتطبيقات LLM. يجمع تكاملنا بين واجهة برمجة تطبيقات Langchain VectorStores مع مجموعات بيانات Deep Lake باعتبارها تخزين البيانات الأساسي. التكامل هو متجر متجه بدون خادم يمكن نشره محليًا أو في سحابة من اختيارك.

الوثائق

يمكن العثور على أدلة البدء ، والأمثلة ، والدروس التعليمية ، ومرجع API ، وغيرها من المعلومات المفيدة على صفحة الوثائق الخاصة بنا.

؟ للطلاب والمعلمين

يمكن لمستخدمي Deep Lake الوصول إلى مجموعة متنوعة من مجموعات البيانات الشائعة من خلال تكامل مجاني مع تطبيق Deep Lake. يمكن للجامعات الحصول على ما يصل إلى 1 تيرابايت من تخزين البيانات و 100000 استعلامات شهرية على قاعدة بيانات الموتر مجانًا شهريًا. الدردشة في موقعنا على الإنترنت: للمطالبة بالوصول!

؟ ‍ مقارنات بالأدوات المألوفة

البحيرة العميقة مقابل Chroma

يمكّن كل من Deep Lake & Chromadb المستخدمين من تخزين المتجهات والبحث (التضمين) وتقديم تكامل مع Langchain و Llamaindex. ومع ذلك ، فهي مختلفة من الناحية المعمارية. ChromadB هي قاعدة بيانات متجه يمكن نشرها محليًا أو على خادم باستخدام Docker وسيقدم حلًا مستضافًا قريبًا. Deep Lake هو متجر متجه بدون خادم يتم نشره على السحابة الخاصة بالمستخدم ، محليًا ، أو في الذاكرة. تعمل جميع الحسابات على جانب العميل ، مما يمكّن المستخدمين من دعم تطبيقات الإنتاج الخفيفة في ثوانٍ. على عكس Chromadb ، يمكن لتنسيق بيانات Deep Lake تخزين البيانات الأولية مثل الصور ومقاطع الفيديو والنص ، بالإضافة إلى التضمينات. يقتصر Chromadb على البيانات الوصفية الخفيفة أعلى التضمينات وليس لها أي تصور. يمكن تصور مجموعات بيانات البحيرة العميقة والتحكم في الإصدار. لدى Deep Lake أيضًا dataloader أداء لضبط نماذج اللغة الكبيرة الخاصة بك.

البحيرة العميقة مقابل Pinecone

يمكّن كل من Deep Lake و Pinecone المستخدمين من تخزين المتجهات والبحث (التضمين) وتقديم تكامل مع Langchain و Llamaindex. ومع ذلك ، فهي مختلفة من الناحية المعمارية. Pinecone عبارة عن قاعدة بيانات متجه تتم إدارتها بالكامل يتم تحسينها للتطبيقات الشديدة التي تتطلب البحث عن مليارات المتجهات. البحيرة العميقة بدون خادم. تعمل جميع الحسابات على جانب العميل ، مما يمكّن المستخدمين من البدء في ثوانٍ. على عكس Pinecone ، يمكن لتنسيق بيانات Deep Lake تخزين البيانات الخام مثل الصور ومقاطع الفيديو والنص ، بالإضافة إلى التضمينات. يمكن تصور مجموعات بيانات البحيرة العميقة والتحكم في الإصدار. يقتصر Pinecone على البيانات الوصفية الخفيفة أعلى التضمينات وليس لديه تصور. لدى Deep Lake أيضًا dataloader أداء لضبط نماذج اللغة الكبيرة الخاصة بك.

Deep Lake vs Weaviate

يمكّن كل من Deep Lake و Weaviate المستخدمين من تخزين المتجهات والبحث (التضمين) وتقديم تكامل مع Langchain و Llamaindex. ومع ذلك ، فهي مختلفة من الناحية المعمارية. Weaviate هي قاعدة بيانات متجه يمكن نشرها في خدمة مُدارة أو من قبل المستخدم عبر Kubernetes أو Docker. البحيرة العميقة بدون خادم. تعمل جميع الحسابات على جانب العميل ، مما يمكّن المستخدمين من دعم تطبيقات الإنتاج الخفيفة في ثوانٍ. على عكس Weaviate ، يمكن لتنسيق بيانات Deep Lake تخزين البيانات الأولية مثل الصور ومقاطع الفيديو والنص ، بالإضافة إلى التضمينات. يمكن تصور مجموعات بيانات البحيرة العميقة والتحكم في الإصدار. يقتصر Weaviate على البيانات الوصفية الخفيفة أعلى التضمينات وليس لها أي تصور. لدى Deep Lake أيضًا dataloader أداء لضبط نماذج اللغة الكبيرة الخاصة بك.

البحيرة العميقة مقابل DVC

تقدم Deep Lake و DVC عنصر تحكم في إصدار مجموعة البيانات على غرار GIT للبيانات ، ولكن طرقها لتخزين البيانات تختلف اختلافًا كبيرًا. تقوم Deep Lake بتحويل البيانات وتخزينها كصفائف مضغوطة مكثف ، والتي تتيح البث السريع إلى نماذج ML ، في حين أن DVC تعمل فوق البيانات المخزنة في هياكل الملفات التقليدية الأقل كفاءة. يجعل تنسيق Deep Lake إصدار مجموعة البيانات أسهل بكثير مقارنة بهياكل الملفات التقليدية بواسطة DVC عندما تتكون مجموعات البيانات من العديد من الملفات (أي العديد من الصور). تمييز إضافي هو أن DVC يستخدم بشكل أساسي واجهة سطر الأوامر ، في حين أن Deep Lake هي حزمة Python. أخيرًا ، توفر Deep Lake واجهة برمجة تطبيقات لتوصيل مجموعات البيانات بسهولة بأطر ML وأدوات ML الشائعة الأخرى وتمكين تصور مجموعة البيانات الفورية من خلال أداة تصور Activeloop.

Deep Lake vs Mosaicml MDS Format

تنسيق تخزين البيانات: تعمل Deep Lake على تنسيق تخزين عمودي ، في حين أن MDS تستخدم نهج التخزين في صف. هذا يؤثر بشكل أساسي على كيفية قراءة البيانات وكتابتها وتنظيمها في كل نظام.
الضغط: يوفر Deep Lake مخطط ضغط أكثر مرونة ، مما يسمح بالتحكم في كل من الضغط على مستوى القطعة وعينة لكل عمود أو موتر. هذه الميزة تلغي الحاجة إلى ضغط إضافي مثل ZSTD ، والتي من شأنها أن تتطلب المزيد من دورات وحدة المعالجة المركزية لفك الضغط فوق تنسيقات مثل JPEG.
خلط: يقدم MDS حاليًا استراتيجيات خلط أكثر تقدماً.
دعم الإصدار ودعم التصور: ميزة ملحوظة لـ Deep Lake هي التحكم الأصلي في الإصدار وتصور البيانات داخل المتصفح ، وهي ميزة غير موجودة لتنسيق بيانات MOSAICML. يمكن أن يوفر ذلك مزايا كبيرة في إدارة وفهم وتتبع إصدارات مختلفة من البيانات.

Deep Lake vs Tensorflow مجموعات بيانات (TFDs)

تقوم Deep Lake و TFDs بتوصيل مجموعات البيانات الشائعة بسلاسة بأطر عمل ML. تتوافق مجموعات بيانات Deep Lake مع كل من Pytorch و TensorFlow ، في حين أن TFDs متوافقة فقط مع TensorFlow. يتمثل الفرق الرئيسي بين Deep Lake و TFDs في أن مجموعات بيانات Deep Lake مصممة للبث من السحابة ، في حين يجب تنزيل TFDs محليًا قبل الاستخدام. نتيجة لذلك ، مع Deep Lake ، يمكن للمرء استيراد مجموعات البيانات مباشرة من مجموعات بيانات TensorFlow ودفقها إما إلى Pytorch أو TensorFlow. بالإضافة إلى توفير الوصول إلى مجموعات البيانات الشهيرة للجمهور ، تقدم Deep Lake أيضًا أدوات قوية لإنشاء مجموعات بيانات مخصصة وتخزينها على مجموعة متنوعة من مزودي التخزين السحابي والتعاون مع الآخرين عبر API البسيط. تركز TFDS بشكل أساسي على منح العام السهل الوصول إلى مجموعات البيانات المتاحة بشكل شائع ، كما أن إدارة مجموعات البيانات المخصصة ليست هي التركيز الأساسي. يمكن العثور على مقالة مقارنة كاملة هنا.

Deep Lake vs Huggingface

توفر Deep Lake و Huggingface إمكانية الوصول إلى مجموعات البيانات الشهيرة ، لكن Deep Lake تركز بشكل أساسي على رؤية الكمبيوتر ، في حين أن Huggingface يركز على معالجة اللغة الطبيعية. تحولات Huggingface وغيرها من الأدوات الحسابية لـ NLP ليست مماثلة للميزات التي تقدمها Deep Lake.

Deep Lake vs WebDataSets

تقدم كل من Deep Lake و WebDataSets تدفق البيانات السريعة عبر الشبكات. لديهم سرعات تبخير متطابقة تقريبًا لأن طلبات الشبكة الأساسية وهياكل البيانات متشابهة للغاية. ومع ذلك ، توفر Deep Lake وصولًا عشوائيًا وخلطًا فائقًا ، واجهات واجهة برمجة التطبيقات البسيطة الخاصة بها في Python بدلاً من سطر الأوامر ، وتمكّن Deep Lake الفهرسة والتعديل البسيط لمجموعة البيانات دون الحاجة إلى إعادة إنشائها.

ديب ليك ضد زار

يقدم كل من Deep Lake و Zarr تخزين البيانات كصفائف مكثف. ومع ذلك ، تم تصميم Deep Lake في المقام الأول لإعادة البيانات كصفائف باستخدام واجهة برمجة تطبيقات بسيطة ، بدلاً من تخزين المصفوفات الخام فعليًا (على الرغم من أن هذا ممكن أيضًا). تقوم Deep Lake بتخزين البيانات في تنسيقات محسّنة للاستخدام ، مثل JPEG أو PNG للصور ، أو MP4 للفيديو ، ويعامل المستخدم البيانات كما لو كانت صفيفًا ، لأن Deep Lake تتولى معالجة البيانات بينهما. توفر Deep Lake مرونة أكبر لتخزين المصفوفات ذات الشكل الديناميكي (الموترات الخشنة) ، وهي توفر العديد من الميزات غير المتوفرة بسذاجة في Zarr مثل التحكم في الإصدار ، وتدفق البيانات ، وتوصيل البيانات بأطر ML.

مجتمع

انضم إلى مجتمع Slack لمعرفة المزيد حول إدارة مجموعات البيانات غير المهيكلة باستخدام Deep Lake ولتقديم المساعدة من فريق Activeloop والمستخدمين الآخرين.

نحن نحب ملاحظاتك من خلال استكمال استطلاعنا لمدة 3 دقائق.

كما هو الحال دائمًا ، بفضل مساهمينا المذهلين!

صنع مع المساهمين-IMG.

يرجى قراءة المساهمة. md للبدء في تقديم مساهمات في Deep Lake.

شارة readme

باستخدام أعماق البحيرة؟ أضف شارة readme لإعلام الجميع:

 [ ![ deeplake ] ( https://img.shields.io/badge/powered%20by-Deep%20Lake%20-ff5a1f.svg )] ( https://github.com/activeloopai/deeplake )

إخلاء المسئولية

تراخيص مجموعة البيانات

قد يكون لدى مستخدمي Deep Lake الوصول إلى مجموعة متنوعة من مجموعات البيانات المتاحة للجمهور. نحن لا نستضيف أو نوزع مجموعات البيانات هذه ، ونهتم بجودتها أو الإنصاف ، أو ندعي أن لديك ترخيصًا لاستخدام مجموعات البيانات. تقع على عاتقك مسؤولية تحديد ما إذا كان لديك إذن لاستخدام مجموعات البيانات ضمن ترخيصها.

إذا كنت مالكًا لمجموعة البيانات ولا تريد تضمين مجموعة البيانات الخاصة بك في هذه المكتبة ، فيرجى الاتصال بمشكلة GitHub. شكرا لك على مساهمتك في مجتمع ML!

تتبع الاستخدام

بشكل افتراضي ، نجمع بيانات الاستخدام باستخدام Bugout (إليك الرمز الذي يفعل ذلك). لا يجمع بيانات المستخدم بخلاف بيانات عنوان IP المجهولة ، ويقوم فقط بتسجيل إجراءات مكتبة Deep Lake الخاصة. يساعد هذا فريقنا على فهم كيفية استخدام الأداة وكيفية إنشاء ميزات مهمة لك! بعد التسجيل في Activeloop ، لم تعد البيانات مجهولة. يمكنك دائمًا إلغاء الاشتراك في الإبلاغ عن طريق تعيين متغير بيئي BUGGER_OFF إلى True :

اقتباس

إذا كنت تستخدم Seep Lake في بحثك ، فيرجى الاستشهاد بـ Activeloop باستخدام:

 @ article {deeplake,
  title = {Deep Lake: a Lakehouse for Deep Learning},
  author = {Hambardzumyan, Sasun and Tuli, Abhinav and Ghukasyan, Levon and Rahman, Fariz and Topchyan, Hrant and Isayan, David and Harutyunyan, Mikayel and Hakobyan, Tatevik and Stranic, Ivo and Buniatyan, Davit},
  url = { https://www.cidrdb.org/cidr2023/papers/p69-buniatyan.pdf} ,
  booktitle={Proceedings of CIDR},
  year = {2023},
}

شكر وتقدير

كانت هذه التكنولوجيا مستوحاة من أعمالنا البحثية في جامعة برينستون. نود أن نشكر William Silversmith seunglab على أدائه الحجم السحابي الرائع.

يوسع

معلومات إضافية

الإصدار v4.0.3
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-23
الحجم 56.75KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل