تنزيل embedding_studio - تنزيل رمز embedding

embedding_studio

شفرة المصدر الأخرى

v0.0.1

تنزيل

الموقع • الوثائق • التحديات والحلول • استخدام الحالات

يعد تضمين Studio إطار عمل مبتكر مفتوح المصدر مصمم لتحويل نموذج التضمين المجمع وقاعدة بيانات المتجهات إلى محرك بحث شامل. من خلال وظائف مدمجة لجمع ClickStream ، والتحسين المستمر لتجارب البحث ، والتكيف التلقائي لنموذج التضمين ، فإنه يوفر حلًا خارج الصندوق لمحرك بحث كامل الدورة.

دعم المجتمع

ينمو تضمين الاستوديو مع حماس فريقنا. نجمك على المستودع يساعدنا على الاستمرار في التطور.
انضم إلينا في الوصول إلى هدفنا:

سمات

تحويل قاعدة بيانات المتجه الخاصة بك إلى محرك بحث كامل الدورة
️ جمع ملاحظات المستخدمين مثل ClickStream
(*) تحسين تجربة البحث أثناء الطيران دون إحباط أوقات الانتظار
(*) راقب جودة البحث الخاصة بك
قم بتحسين نموذج التضمين الخاص بك من خلال إجراء صقل متري تكراري
؟ (*) استخدم الإصدار الجديد من نموذج التضمين للاستدلال
(*) قبل ضبط التضمين الخاص بك على بيانات الكتالوج الخاصة بك.
؟ (*) استخدم وتحسين محلل الاستعلام الصفري لخلط قاعدة البيانات المهيكلة الخاصة بك مع البحث غير المنظم.

(*) - ميزات في التطوير

استوديو التضمين قابل للتخصيص بشكل كبير ، بحيث يمكنك إحضاره:

مصدر البيانات
قاعدة بيانات المتجهات
قاعدة بيانات ClickStream
نموذج التضمين

متى يتم تضمين Studio أفضل ملاءمة؟

المزيد عن ذلك هنا.

الشركات ذات الكتالوجات الواسعة والبيانات غير المهيكلة الغنية.
؟ ️؟ المنصات التي تركز على العملاء تعطي الأولوية للتجارب الشخصية.
منصات المحتوى الديناميكي مع محتوى متطور وتفضيلات المستخدم.
؟ منصات التعامل مع استعلامات البحث الدقيقة ومتعددة الأوجه.
تكامل أنواع البيانات المختلطة في عمليات البحث.
المنصات التي تسعى إلى التحسين المستمر من خلال تفاعلات المستخدم.
؟ المنظمات الواعية للميزانية تسعى للحصول على حلول قوية وبأسعار معقولة.

يمكن حل التحديات

إخلاء المسئولية: تضمين استوديو ليس قاعدة بيانات متجه أخرى ، إنه إطار يتيح لك تحويل قاعدة بيانات المتجه الخاصة بك إلى محرك بحث مع جميع الفروق الدقيقة.

لا شيء سوى كتالوج ، لكنك تريد عرضًا سريعًا
جودة البحث الثابت ، لكنك تريد تحسينها مع مرور الوقت
يستغرق تحسين تجربة المستخدم وقتًا طويلاً ، ويشعر المستخدمون بأنفسهم محبطين
تحديث الفهرس البطيء والموارد المنهكة
مزيج من البحث منظم وغير منظم ، ولا تعرف كيفية الجمع بينها
البحث منظم مع استفسارات غير منظمة ، وتريد تحليلها بشكل صحيح
تضيع العناصر الطازجة

المزيد عن التحديات والحلول هنا

ملخص

يمكّنك إطار عملنا من ضبط النموذج الخاص بك بشكل مستمر استنادًا إلى تجربة المستخدم ، مما يتيح لك تكوين نتائج بحث لاستعلامات المستخدم بشكل أسرع وأكثر دقة.

$ color {red} { textsf {red:}} $ على الرسم البياني ، يتم وضع علامة على حلول البحث النموذجية دون تحسينات ، مثل البحث عن النص الكامل (FTS) ، وأقرب البحث الجار (NNS) ، وغيرها ، باللون الأحمر. بدون استخدام أدوات إضافية ، تظل جودة البحث دون تغيير مع مرور الوقت.

$ color {Orange} { textsf {Orange:}} $ يتم تصوير الحلول التي تتراكم بعض الملاحظات (النقرات ، المراجعات ، الأصوات ، المناقشات ، إلخ) ثم تبدأ إعادة تدريب نموذج كامل. المشكلة الأساسية في هذه الحلول هي أن إعادة تدريب النماذج الكاملة هي إجراء يستغرق وقتًا طويلاً ومكلفًا ، وبالتالي يفتقر إلى التعديلات التفاعلية (على سبيل المثال ، عندما يتعرض المنتج بشكل مفاجئ على زيادة الطلب ، ولم يتكيف نظام البحث معه بعد).

$ color {#6666ff} { textsf {indigo:}} $ نقترح حلًا يسمح بجمع ملاحظات المستخدم وإعادة تدريب النموذج بسرعة على الفرق بين الإصدارات القديمة والجديدة. يتيح هذا منحنى جودة البحث أكثر سلاسة وأكثر صلة لنظامك.

تضمين الرسم البياني الاستوديو

الوثائق

عرض وثائقنا الرسمية.

ابدء

مرحبا ، عالم غير منظم!

لتجربة استوديو تضمين ، يمكنك إطلاق مشروع العرض التوضيحي المسبق مسبقًا. لقد أعددنا مجموعة بيانات مخزنة في دلو S3 العام ، ومحاكي للنقرات المستخدم ، ونصًا أساسيًا لضبط النموذج. من خلال تكييفه مع متطلباتك ، يمكنك بدء ضبط النموذج الخاص بك.

تأكد من أن لديك أمر docker compose version الذي يعمل على نظامك:

Docker Compose version v2.23.3

يمكنك أيضًا تجربة أمر إصدار Docker-Cormse. المضي قدمًا ، سنستخدم أمر إصدار Docker الأحدث ، ولكن قد يعمل أمر إصدار Docker-Cormse أيضًا بنجاح على نظامك.

أولاً ، طرح جميع خدمات استوديو التضمين من خلال تنفيذ الأمر التالي:

docker compose up -d

بمجرد انتهاء جميع الخدمات ، يمكنك البدء في استخدام استوديو التضمين. دعنا نحاكي جلسة بحث المستخدم. سنقوم بتشغيل برنامج نصي مسبقًا من شأنه أن يستدعي واجهة برمجة تطبيقات استوديو التضمين ومحاكاة سلوك المستخدم:

docker compose --profile demo_stage_clickstream up -d

بعد تنفيذ البرنامج النصي ، يمكنك بدء صقل النموذج. تنفيذ الأمر التالي:

docker compose --profile demo_stage_finetuning up -d

سيؤدي ذلك إلى طابور مهمة معالجتها من قبل العامل المصرفي. لإحضار جميع المهام في قائمة انتظار الصقل ، أرسل طلبًا إلى نقطة النهاية /api/v1/fine-tuning/task :

curl -X GET http://localhost:5000/api/v1/fine-tuning/task

الجواب سيكون شيئًا مثل:

[
  {
    "fine_tuning_method" : " Default Fine Tuning Method " ,
    "status" : " processing " ,
    "created_at" : " 2023-12-21T14:30:25.823000 " ,
    "updated_at" : " 2023-12-21T14:32:16.673000 " ,
    "batch_id" : " 65844a671089823652b83d43 " ,
    "id" : " 65844c019fa7cf0957d04758 "
  }
]

بمجرد حصولك على معرف المهمة ، يمكنك مراقبة التقدم الدقيق مباشرة عن طريق إرسال طلب الحصول على نقطة إلى نقطة النهاية /api/v1/fine-tuning/task/{task_id} :

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

ستكون النتيجة مشابهة لما تلقيته عند الاستعلام عن جميع المهام. للحصول على طريقة أكثر ملاءمة لتتبع التقدم ، يمكنك استخدام MLFlow في http: // localhost: 5001.

من المفيد أيضًا التحقق من سجلات fine_tuning_worker لضمان عمل كل شيء بشكل صحيح. للقيام بذلك ، أدرج جميع الخدمات باستخدام الأمر:

docker logs embedding_studio-fine_tuning_worker-1

إذا أكمل كل شيء بنجاح ، فسترى سجلات مشابهة لـ:

Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,931] [PID 7] [Thread-6] [pytorch_lightning.utilities.rank_zero] [INFO] ` Trainer.fit ` stopped: ` max_epochs=3 ` reached.
Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Save model (best only, current quality: 8.426392069685529e-05)
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Save model for 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:06,009] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [WARNING] No finished experiments found with model uploaded, except initial
[2023-12-21 14:59:16,432] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Upload is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Saving is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current run 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:16,445] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current run is finished
[2023-12-21 14:59:16,656] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current iteration 2
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current iteration is finished
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.worker] [INFO] Fine tuning of the embedding model was completed successfully !

مبروك! لقد قمت بتحسين النموذج بنجاح!

لتنزيل أفضل طراز يمكنك استخدام API للتضمين:

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

إذا كان كل شيء على ما يرام ، فسترى الإخراج التالي:

{
  "fine_tuning_method" : " Default Fine Tuning Method " , 
  "status" : " done " , 
  "best_model_url" : " http://localhost:5001/get-artifact?path=model%2Fdata%2Fmodel.pth&run_uuid=571304f0c330448aa8cbce831944cfdd " , 
  ...
}

ويحتوي حقل best_model_url على ملف HTTP model.pth .

يمكنك تنزيل ملف *.pth من خلال تنفيذ الأمر التالي:

wget http://localhost:5001/get-artifact ? path=model%2Fdata%2Fmodel.pth & run_uuid=571304f0c330448aa8cbce831944cfdd

المساهمة

نرحب بالمساهمات في تضمين الاستوديو!

رخصة

تم ترخيص استوديو التضمين بموجب ترخيص Apache ، الإصدار 2.0. انظر ترخيص نص الترخيص الكامل.

يوسع

معلومات إضافية

الإصدار v0.0.1
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-12
الحجم 10.51MB
من Github

تطبيقات ذات صلة

PwR Studio

2024-11-14
studio

2024-11-13
langgraph studio

2024-11-09
DiffSynth Studio

2024-11-08
sam2 studio

2024-11-08
gb studio

2024-11-06

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل