CLIFS هو دليل على المفهوم للبحث عن النص المجاني من خلال مقاطع الفيديو لإطارات الفيديو مع محتويات مطابقة. يتم ذلك باستخدام نموذج مقطع Openai ، والذي يتم تدريبه على مطابقة الصور مع التسميات التوضيحية المقابلة والعكس بالعكس. يتم البحث عن طريق استخراج الميزات الأولى من إطارات الفيديو باستخدام تشفير صورة المقطع ، ثم الحصول على ميزات لاستعلام البحث من خلال تشفير نص مقطع. ثم يتم مطابقة الميزات بالتشابه ويتم إرجاع النتائج العليا ، إذا كانت فوق عتبة المحددة.
للسماح بسهولة الاستخدام للواجهة الخلفية لـ CLIFS ، يتم استخدام خادم ويب بسيط يعمل Django لتوفير واجهة لمحرك البحث.
لإعطاء فكرة عن قدرة هذا النموذج ، يتم عرض بعض الأمثلة أدناه ، مع استعلام البحث بالخط العريض والنتيجة أدناه. تتم استفسارات البحث هذه مقابل فيديو Sherbrooke لمدة دقيقتين من مجموعة بيانات UrbanTracker. يتم عرض نتيجة الصورة العليا فقط لكل استعلام. لاحظ أن النموذج قادر في الواقع على OCR.





./setup.sh ضع ملفات الفيديو الخاصة بك التي تريد فهرستها في دليل data/input
قم ببناء وبدء حاويات محرك البحث وخادم الويب من خلال موكب Docker:
docker-compose build && docker-compose upاختياريا ، يمكن استخدام ملف Docker-Corms مع دعم GPU إذا كانت بيئة المضيف تحتوي على وحدة معالجة الرسومات NVIDIA وتم إعدادها لدعم Docker GPU:
docker-compose build && docker-compose -f docker-compose-gpu.yml updata/input ، كما هو موضح في السجل ، انتقل إلى 127.0.0.1:8000 والبحث بعيدًا.