تتطور منطقة الجيل المعزز للاسترجاع بسرعة. هناك العديد من الطرق المختلفة لتنفيذ الاسترجاع. يستخدم بعض الأشخاص التضمينات وقواعد بيانات المتجهات ، وبعضها يستخدم الرسوم البيانية الدلالية. لذلك ، هناك تصميمات مختلفة وهناك أيضًا مهام مختلفة ومن المهم مطابقة التصميم مع المهمة 1 .
الهدف من هذا التسخير هو توفير تعريفات التجميع ، والتجريدات ، وكتل البناء للمساعدة في فهم ، والقياس ، ومقارنة ، واختيار تصميم استرجاع محدد يطابق أفضل مهمة في متناول اليد.
يهدف التسخير إلى أن يكون مشابهًا إلى حد ما مع مجموعة توافق التكنولوجيا + التكنولوجيا (TCK) - لتوفير:
تم اختيار Java كتقنية مهيمنة في عالم المؤسسات مع القوة التعبيرية الغنية للغة والنظام الإيكولوجي الكبير الناضج. تم اختيار EMF Ecore لأن هناك قدرات:
توفر هذه الصفحة مقدمة للمفاهيم الأساسية وتحديد العديد من حالات الاستخدام (المهام) والتصميمات (البدائل).
يوضح الرسم البياني أدناه بنية التسخير والسياق:

توفر الأقسام التالية تعريفات وأبعاد المهمة/التصميم لكل تعريف. يلتقط Metamodel بعض التعريفات كعناصر نموذجية وتضعها في الميزات والعمليات والفئات الفرعية.
الوثيقة هي تمثيل تذكاري للفكر أو المعلومات. لأغراض مستندات تسخير هذا:
التطبيقات "المادية":
التطبيقات "المنطقية":
pom.xml في نموذج كائن المشروع ، يمكن تحميل ملف Java في شجرة بناء الجملة أو رسم بياني مع مراجع نوع/حقل/طريقة حلت.يحول تمثيل مستند إلى آخر. مثل PDF أو OCR JSON إلى نموذج كائن لرسالة Swift MT 700.
تخزين المستندات بتنسيق أو تنسيقات محددة. مثل نظام الملفات مع مستندات PDF. يمكن تحويل مصادر المستندات/تكييفها. أحد الأمثلة على مصدر المستند هو التزام بوابة. يمكن استخدام نموذج Nasdanika Gitlab لتنفيذ تحميل المستندات من Gitlab.
مجموعة من المستندات التي توفر وظائف التخزين والاسترجاع. الواجهة الأساسية للـ DPI (انظر أدناه) لتنفيذها بواسطة التصميمات.
عند تخزين وثيقة ، يجوز للمستودع أداء مهام مثل التعرف على الصور.
قد يكون هناك عدة طرائق استرجاع مثل:
يمكن تجميع المستودعات من مستودعات أخرى وعمليات لوادر البيانات. على سبيل المثال ، يمكن تجميع مستودع PDF من محمل بيانات نموذج الكائن PDF -> ومستودع نموذج كائن. قد لا يتعين على مستودعات المستندات أيضًا تخزين/إعادة إنشاء المستند المصدر - يمكنهم الإشارة إليها واستردادها من متجر المستندات - الأصلي الذي تم تحميل المستند منه ، أو متجر مستندات خاص بالمستودع.
قد يكون من الممكن أيضًا إنشاء تصميمات مختلفة للمستودعات. على سبيل المثال ، مستودع يدعم البحث عن الكلمات الرئيسية ومستودع يدعم البحث الدلالي. في هذه الحالة ، ستكون نتائج استعلام مستودع البحث عن الكلمات الرئيسية ضرورية ، ولكنها ليست كافية وقد تستخدم للتحقق من صحة نتائج مستودع البحث الدلالي.
يستعيي المستخدمون مستودع مستند عبر واجهة المستخدم على الويب. يمكنهم القيام بذلك كجزء من وظيفتهم الوظيفية أو لتقييم وظائف الاستعلام لتصميم معين وتقديم ملاحظات. قد يتم الجمع بين هذين الطرفين - قد يختار المستخدمون استخدام محرك/تصميم "بطل" فقط ، على سبيل المثال البحث عن الكلمات الرئيسية ، أو تحديد محركات/تصميمات "تشالنجر".
قد تلتقط واجهة المستخدم على الويب سياق المستخدم مثل الدور/الموضع في المؤسسة ونقله إلى التصميم كجزء من الاستعلام.
طرف مهتم بتحسين صفات عمل المستخدم مثل الإنتاجية من خلال استخدام جيل معزز استرجاع المستندات.
يحتاج الرعاة إلى موازنة معايير متعددة لتقليل "وظيفة الخسارة":
التصميم هو مثيل/تجسيد للتقنيات ومعلمات التكوين الخاصة بها.
نقاط تباين التصميم - ما الذي يمكن تغييره في نماذج/إنشاءات مختلفة ومصدر للقيم. على سبيل المثال:
يمكن أن تشكل أبعاد التصميم شجرة أو ، على وجه التحديد ، رسم بياني موجه. على سبيل المثال ، ستكون إصدارات قاعدة بيانات المتجه عقدًا ضمن عقدة لقاعدة بيانات متجه محددة.
واجهة مزود التصميم (DPI) تجريد تسخير من تطبيق تصميم معين. إنها مجموعة من الواجهات والفئات المجردة التي يجب على التصميم تنفيذها. مثل واجهة DocumentRepository . يتم تعريف DPI في Java/Ecore وقد يوفر محولات لتقنيات مختلفة. بخاصة:
المهمة هي استخدام محدد لاسترجاع المستند. على سبيل المثال ، البحث الدلالي في الوثائق الفنية الخاصة بالمنظم "كيف يمكنني نشر خدمة microservice الربيع على AKs؟".
مجموعة من وثائق الاختبار والاستعلامات ومقيمي الاستجابات.
مجموعة من مجموعات بيانات الاختبار / مجموعات التصميم التي سيتم تنفيذها بواسطة عداء الاختبار.
يجوز للاختبار أن يقوم العداء بتنفيذ أجزاء فقط من الخطوات المذكورة أعلاه اعتمادًا على المدخلات. على سبيل المثال:
يمكن توزيع عمليات الاختبار عبر عوامل/آلات متعددة.
تخزين نتائج الاختبار وتعليقات المستخدم. يجب أن تشير نتائج الاختبار وتعليقات المستخدم إلى مجموعات بيانات الاختبار والتصميمات. على هذا النحو ، فهو في الأساس مستودع بيانات التعريف يحتوي على أشجار/الرسوم البيانية للتصميم ، وتعريفات مجموعة بيانات الاختبار ، ونتائج عمليات الاختبار.
يولد تقرير. قد يكون التقرير بتنسيق HTML مع التصورات. تنسيق تقرير ممكن:
قد يحتوي التقرير على روابط إلى واجهة مستخدم الويب أو حتى "مضيف" واجهة المستخدم على الويب إذا تم تنفيذها كتطبيق واحد للصفحة (SPA) مع ، على سبيل المثال ، Vue.js/bootstrapvue
الأطراف المساهمة في تسخير وتصميمات ومجموعات بيانات الاختبار. قد يلعب أعضاء المجتمع أدوارًا مختلفة على مكونات مختلفة.
--- العمل قيد التقدم ---
يحدد هذا القسم العديد من المهام (حالات الاستخدام) للتوليد المعزز للاسترجاع والبحث بشكل عام.
أبعاد:
مثال - وظيفة التكنولوجيا في مؤسسة كبيرة:
لكل مما سبق ، هناك بعد تحديثات Tech Tech في الأعلى ، يتم إصدار إصدارات في الأسفل. انظر Togaf Architecture Landscape لتصور.
في مثل هذه البيئة ، يحتاج المستخدمون إلى حل استرجاع يسمح باسترداد المستندات المحددة لموقف المستخدم ودوره في المؤسسة والجهد الذي تم تعيينهم له. مثل مطور Java الذي يعمل عليه ، يقول أن الإصدار الحالي قد يحتاج إلى معلومات حول Java 17. إذا تم تعيين نفس المطور للعمل في الإصدار المستقبلي ، فقد يحتاجون إلى معلومات حوله ، على سبيل المثال ، Java 20. عندما يعملون مع التقنيات مثل Kubernetes و Az aks ، قد تكون موثقة البائع غير مجدية إلى حد ما وتتسبب في وجود معلومات عامة ، لكنهم يحتاجون إلى التعرف على شيء ما.
أبعاد:
أبعاد:
تودو. وفقًا لمعلومات الصناعة ، فإن عدد كبير جدًا من المستندات - يطابق حالة استخدام المستندات التشغيلية
تودو. قد يكون أفضل لعدد أقل من المستندات (الإجراءات) - قد تتناسب جميعها في الذاكرة ويمكن إجراء عمليات البحث على الرسوم البيانية الدلالية. في حالة قاعدة بيانات المتجهات ، تتمثل إحدى الطرق لبناء الفهارس في استخدام الرسوم البيانية - عالم صغير قابل للملاحة (HNSW)
تودو. قد تكون مناسبة بشكل جيد لحالة استخدام الوثائق التقنية:
ستؤدي هذه العملية إلى عدد كبير (مئات) من الرسوم البيانية/النماذج الصغيرة نسبيًا (قواعد المعرفة) مع عشرات الآلاف من المستندات.
مساحة تصميم للشبكات العصبية الرسم البياني ، محاضرة جزء من Stanford CS224W: ML مع الرسوم البيانية ، الشرائح ↩