يهدف LVBench، وهو مشروع معياري لفهم الفيديو الطويل تم إطلاقه بشكل مشترك من قبل Zhipu وجامعة تسينغهوا وجامعة بكين، إلى حل التحديات التي تواجهها نماذج اللغات الكبيرة متعددة الوسائط الحالية في معالجة مقاطع الفيديو الطويلة. يوفر المشروع عدة ساعات من بيانات ضمان الجودة التي تغطي أنواعًا مختلفة من محتوى الفيديو مثل المسلسلات التلفزيونية والبث الرياضي ومقاطع فيديو المراقبة، ويحتوي على 6 فئات رئيسية و21 فئة فرعية، ويتم شرح البيانات بجودة عالية ويتم استخدام LLM للتصفية المشكلات الصعبة، والتي تغطي مجموعة متنوعة من المهام مثل تلخيص الفيديو، واكتشاف الأحداث، والتعرف على الشخصيات، وفهم المشهد. سيؤدي إطلاق LVBench إلى تعزيز الاختراقات والابتكارات في تكنولوجيا فهم الفيديو الطويل، وتوفير دعم قوي لتطبيقات مثل اتخاذ القرار الذكي المتجسد، والمراجعات المتعمقة للأفلام والتلفزيون، والتعليقات الرياضية الاحترافية.

يحتوي هذا المشروع على عدة ساعات من بيانات ضمان الجودة في 6 فئات رئيسية و21 فئة فرعية، تغطي أنواعًا مختلفة من محتوى الفيديو مثل المسلسلات التلفزيونية والبرامج الرياضية ولقطات المراقبة اليومية من المصادر العامة. جميع البيانات مشروحة بجودة عالية ويتم استخدام LLM لتصفية المشكلات الصعبة. يُذكر أن مجموعة بيانات LVBench تغطي مجموعة متنوعة من المهام مثل تلخيص الفيديو واكتشاف الأحداث والتعرف على الأحرف وفهم المشهد.

لا يهدف إطلاق معيار LVBench إلى اختبار تفكير النموذج وقدراته التشغيلية في سيناريوهات الفيديو الطويلة فحسب، بل يهدف أيضًا إلى تعزيز الاختراقات والابتكارات في التقنيات ذات الصلة لتحقيق اتخاذ قرارات ذكية مجسدة، ومراجعات متعمقة للأفلام والتلفزيون، والرياضات الاحترافية. التعليق في مجال الفيديوهات الطويلة يحتاج التطبيق إلى ضخ زخم جديد.
بدأت العديد من المؤسسات البحثية العمل على مجموعة بيانات LVBench، وتوسيع حدود الذكاء الاصطناعي تدريجيًا في فهم تدفقات المعلومات طويلة المدى من خلال بناء نماذج كبيرة لمهام الفيديو الطويلة، وحقن أفكار جديدة في الاستكشاف المستمر لفهم الفيديو، والوسائط المتعددة. التعلم وغيرها من مجالات الحيوية.
جيثب: https://github.com/THUDM/LVBench
المشروع: https://lvbench.github.io
الورقة: https://arxiv.org/abs/2406.08035
يمثل إطلاق مشروع LVBench مرحلة جديدة في تطوير تقنية فهم الفيديو الطويل، حيث ستجذب مجموعات البيانات الغنية والمهام الصعبة التي توفرها المزيد من الباحثين للمشاركة، وتسريع تقدم الذكاء الاصطناعي في مجال فهم الفيديو الطويل. جلب فوائد للتطبيقات المستقبلية. نتطلع إلى المزيد من نتائج الأبحاث المستندة إلى LVBench في المستقبل.