تقدم هذه المقالة سلسلة ShareGPT4Video، وهو مشروع يهدف إلى تحسين إمكانيات فهم الفيديو لنماذج لغة الفيديو واسعة النطاق (LVLMs) وإمكانيات إنشاء الفيديو لنماذج تحويل النص إلى فيديو (T2VMs). تتكون السلسلة من ثلاثة أجزاء رئيسية: ShareGPT4Video، وهي مجموعة بيانات كثيفة للتعليقات التوضيحية مكونة من 40000 مقطع فيديو تم شرحها بواسطة GPT4V؛ وShareCaptioner-Video، وهو نموذج فعال لإنشاء التسميات التوضيحية للفيديو، والذي تم استخدامه لتعليق 4800000 مقطع فيديو وواحد على ثلاثة معايير للفيديو ShareGPT4Video-8B ، نموذج LVLM الذي يحقق أداء SOTA. تغلب فريق البحث على مشاكل نقص التفاصيل والارتباك الزمني في إنشاء ترجمة الفيديو بالطرق الحالية، وحقق إنشاء ترجمة فيديو عالية الجودة وقابلة للتطوير من خلال استراتيجية ترجمة فيديو تفاضلية مصممة بعناية.
1) ShareGPT4Video، عبارة عن مجموعة ترجمات كثيفة مكونة من 40000 مقطع فيديو بأطوال ومصادر مختلفة مشروحة بواسطة GPT4V، تم تطويرها من خلال إستراتيجيات تصفية البيانات والتعليقات التوضيحية المصممة بعناية.
2) ShareCaptioner-Video، وهو نموذج فعال وقوي لتوليد ترجمة الفيديو ومناسب لمقاطع الفيديو العشوائية، والذي يوضح 4,800,000 مقطع فيديو جمالي عالي الجودة.
3) يحقق ShareGPT4Video-8B، وهو LVLM بسيط ولكن متفوق، أداء SOTA على ثلاثة معايير فيديو متقدمة.
بالإضافة إلى التعليقات التوضيحية البشرية غير القابلة للتطوير والمكلفة، وجدت الدراسة أن استخدام GPT4V لإنشاء ترجمات لمقاطع الفيديو باستخدام استراتيجية إدخال بسيطة متعددة الإطارات أو تسلسل الإطارات أدى إلى نتائج تفتقر إلى التفاصيل وكانت في بعض الأحيان مشوهة مؤقتًا. يعتقد فريق البحث أن التحدي المتمثل في تصميم استراتيجيات ترجمة الفيديو عالية الجودة يكمن في ثلاثة جوانب:
1) فهم التغيرات الزمنية الدقيقة بين الإطارات.
2) وصف المحتوى التفصيلي داخل الإطار.
3) إمكانية التوسع في عدد الإطارات لمقاطع الفيديو ذات الطول التعسفي.
ولتحقيق هذه الغاية، صمم الباحثون بعناية استراتيجية ترجمة تفاضلية للفيديو تكون مستقرة وقابلة للتطوير وفعالة لإنشاء ترجمات فيديو ذات دقة عشوائية ونسب العرض إلى الارتفاع والأطوال. تم بناء ShareGPT4Video على هذا، والذي يحتوي على 40.000 مقطع فيديو عالي الجودة يغطي مجموعة واسعة من الفئات. تحتوي الترجمات المصاحبة التي تم إنشاؤها على معرفة عالمية غنية، وخصائص الكائنات، وحركات الكاميرا، وأوصاف زمنية مفصلة ودقيقة للأحداث الرئيسية.
استنادًا إلى ShareGPT4Video، تم تطوير ShareCaptioner-Video بشكل أكبر، وهو نموذج ممتاز لتوليد الترجمة يمكنه إنشاء ترجمات عالية الجودة لأي فيديو بكفاءة. نستخدمها لإضافة تعليقات توضيحية إلى 4,800,000 مقطع فيديو جذاب من الناحية الجمالية والتحقق من فعاليتها في مهمة تحويل النص إلى فيديو مدتها 10 ثوانٍ. يعد ShareCaptioner-Video نموذجًا رائعًا لترجمة الفيديو أربعة في واحد مع الميزات التالية: تسمية توضيحية سريعة، وتعليق متحرك، وملخص المقطع، وإعادة الترجمة السريعة.

فيما يتعلق بفهم الفيديو، تحقق فريق البحث أيضًا من فعالية ShareGPT4Video على العديد من بنيات LVLM الحالية وقدم LVLM ShareGPT4Video-8B الجديد المتميز.
مدخل المنتج: https://top.aibase.com/tool/sharegpt4video
حققت سلسلة ShareGPT4Video تقدمًا كبيرًا في مجال فهم الفيديو وتوليده، ومن المتوقع أن تعمل مجموعات البيانات والنماذج عالية الجودة الخاصة بها على تعزيز التطوير الإضافي للتقنيات ذات الصلة. زيارة الرابط لمزيد من التفاصيل.