تنزيل multi modal document search - تنزيل رمز مصدر multi modal document search

multi modal document search

شفرة المصدر الأخرى

1.0.0

تنزيل

البحث عن المستندات متعددة الوسائط

كمشروع سريع إلى حد ما ، يوفر هذا المستودع تطبيقًا مبسطًا يمكّن المستخدم من تحميل لقطة شاشة سيتم الاستعلام عنها مقابل قاعدة بيانات من مستندات PDF. يتم استخدام كل من بنية الصورة وكذلك (ربما) النص المضمّن للعثور على مستندات مطابقة لمجموعة محددة ذاتيا.

عملية الاستعلام

عندما يقوم المستخدم بتحميل لقطة شاشة ، يتم تشغيل تدفقان. أولاً نقوم ببناء صورة تضمين تشكل قطعتين من لقطة الشاشة. يتم بناء أجزاء القطع منذ أن يتم تدريب تضمين صورة VIT-G-14 على مدخلات مربعة. عادةً ما تكون شرائح نقطة الطاقة أو مستندات A4 لها علاقة جانبية أقرب إلى 2: 1 ، ولهذا السبب يجب أن يدعم الضخم جودة الاستعلام الكلية. ثم يتم الاستعلام عن تضمينات الصورة (2 × 1024dim) مقابل متجر متجه من الأجزاء المعروفة. يقوم التدفق الثاني أولاً باستخراج النص من لقطة الشاشة باستخدام محرك Tesseract OCR من Google. بعد ذلك ، يتم بناء تضمينات النص (1024DIM) باستخدام واحدة من أفضل الطرز متعددة اللغات أداءً ، E5-LARGE. في الخطوة الأخيرة ، يتم دمج النتائج معًا ، باستخدام نظام معرف مشترك بين متاجر المتجه ، وإرساله إلى المستخدم.

قرارات التصميم

هذا هو المكان الذي أشارك فيه بعض أفكاري.

لماذا تستخدم لقطات الشاشة وليس المستندات كمدخلات؟

كانت الفكرة هي توفير أداة سريعة الاستخدام. افترض أن لديك شريحة عرض تقديمي وترغب في معرفة ما إذا كنت قد أنشأت شيئًا مشابهًا سابقًا. إذا قمت بتحميل المستند بأكمله ، فسيكون هناك شرط لحقل إدخال رقم الصفحة الإضافي ، ستحتاج إلى العثور على المستند في نظام الملفات الخاص بك وسيحتاج نوع الملفات إلى دعمه. مجرد أخذ لقطة شاشة أسرع (هناك اختصارات مفيدة على جميع نظام التشغيل) وأن تحميل صورة واحدة فقط يكون مستقيمًا للأمام.