كمشروع سريع إلى حد ما ، يوفر هذا المستودع تطبيقًا مبسطًا يمكّن المستخدم من تحميل لقطة شاشة سيتم الاستعلام عنها مقابل قاعدة بيانات من مستندات PDF. يتم استخدام كل من بنية الصورة وكذلك (ربما) النص المضمّن للعثور على مستندات مطابقة لمجموعة محددة ذاتيا.
عندما يقوم المستخدم بتحميل لقطة شاشة ، يتم تشغيل تدفقان. أولاً نقوم ببناء صورة تضمين تشكل قطعتين من لقطة الشاشة. يتم بناء أجزاء القطع منذ أن يتم تدريب تضمين صورة VIT-G-14 على مدخلات مربعة. عادةً ما تكون شرائح نقطة الطاقة أو مستندات A4 لها علاقة جانبية أقرب إلى 2: 1 ، ولهذا السبب يجب أن يدعم الضخم جودة الاستعلام الكلية. ثم يتم الاستعلام عن تضمينات الصورة (2 × 1024dim) مقابل متجر متجه من الأجزاء المعروفة. يقوم التدفق الثاني أولاً باستخراج النص من لقطة الشاشة باستخدام محرك Tesseract OCR من Google. بعد ذلك ، يتم بناء تضمينات النص (1024DIM) باستخدام واحدة من أفضل الطرز متعددة اللغات أداءً ، E5-LARGE. في الخطوة الأخيرة ، يتم دمج النتائج معًا ، باستخدام نظام معرف مشترك بين متاجر المتجه ، وإرساله إلى المستخدم.
هذا هو المكان الذي أشارك فيه بعض أفكاري.
كانت الفكرة هي توفير أداة سريعة الاستخدام. افترض أن لديك شريحة عرض تقديمي وترغب في معرفة ما إذا كنت قد أنشأت شيئًا مشابهًا سابقًا. إذا قمت بتحميل المستند بأكمله ، فسيكون هناك شرط لحقل إدخال رقم الصفحة الإضافي ، ستحتاج إلى العثور على المستند في نظام الملفات الخاص بك وسيحتاج نوع الملفات إلى دعمه. مجرد أخذ لقطة شاشة أسرع (هناك اختصارات مفيدة على جميع نظام التشغيل) وأن تحميل صورة واحدة فقط يكون مستقيمًا للأمام.
من الصعب تجميع تطبيق صغير وأحب واجهات مرئية أكثر من الأدوات المستندة إلى CLI.
في الغالب من خلال huggingface المتصدرين. نظرًا لأن هذا مشروع صغير أردت أيضًا استخدام النماذج التي تم تدريبها بشكل حصري.
البرنامج النصي pdf_to_db.py هو تكرار بسيط على جميع المستندات في pdfs/ والذي يستخدم الفئات الأخرى لملء متاجر المتجه.
هذا ليس مشروعًا تم تطويره بشكل نشط وكان يستخدم في الغالب للقيام بمشروع مع التقنيات المستخدمة. إذا كان لديك أي أسئلة ، فلا تتردد في الاتصال بي.