في العصر الرقمي اليوم ، أصبحت مقاطع الفيديو القصيرة التي تم إنشاؤها من الذكاء الاصطناعى شائعة ، لكن مقاطع الفيديو هذه غالبًا ما تفتقر إلى العمق والتماسك ويصعب إثارة إعجاب الجمهور حقًا. لحل هذه المشكلة ، ظهرت تقنية ضبط السياق الطويل (LCT). تتيح هذه التقنية نماذج لتوليد الفيديو من الذكاء الاصطناعي القدرة على توجيه مقاطع الفيديو السردية المتعددة ، مما يسمح لها بالتبديل بحرية بين لقطات مختلفة مثل الأفلام والمسلسلات التلفزيونية لإنشاء مشهد قصة أكثر تماسكًا ورائعًا.

في الماضي ، تمكنت طرز توليد الفيديو من أصل AI ، مثل Sora و Kling و Gen3 ، من إنشاء مقاطع فيديو واقعية واقعية تصل إلى دقيقة واحدة. ومع ذلك ، لا تزال هذه النماذج لديها تحديات ضخمة في توليد مقاطع فيديو سردية متعددة العدسات. غالبًا ما يتكون مشهد الفيلم من مقاطع فيديو متعددة مختلفة لقطات واحدة تلتقط نفس الحدث المتماسك ، مما يتطلب من النموذج الحفاظ على درجة عالية من الاتساق في المظهر البصري والديناميات الزمنية.
خذ المشهد الكلاسيكي حيث يلتقي جاك وروث على سطح السفينة في فيلم Titanic ، الذي يحتوي على أربع طلقات رئيسية: مقربة من جاك ينظر إلى الوراء ، لقطة متوسطة من روث تتحدث ، لقطة واسعة من روث تمشي نحو جاك ، وخلفي من جاك الذي يعانق روث من الخلف. لتوليد مثل هذا المشهد ، ليس من الضروري فقط ضمان اتساق خصائص الشخصية والخلفية والضوء والنغمات ، ولكن أيضًا للحفاظ على إيقاع حركة الشخصية وسلاسة حركة الكاميرا لضمان نعومة السرد.
لسد الفجوة بين توليد العدسات الواحدة ورواية متعددة العدسات ، اقترح الباحثون مجموعة متنوعة من الأساليب ، ولكن معظم هذه الطرق لها قيود. تعتمد بعض الطرق على إدخال العناصر المرئية الرئيسية لإجبار الاتساق البصري عبر العدسة ، ولكن من الصعب التحكم في المزيد من العناصر المجردة مثل الضوء والنغمات. تشكل الطرق الأخرى مجموعة متماسكة من إطارات المفاتيح ، ثم استخدم نموذج صورة إلى video (I2V) لتجميع كل عدسة بشكل مستقل ، وهو أمر يصعب ضمان الاتساق الزمني بين العدسات ، كما تحد إطارات المفاتيح المتفرقة أيضًا من فعالية الظروف.
إن ظهور تقنية LCT هو بالضبط حل هذه المشكلات. يقوم بتوسيع نافذة سياق نموذج انتشار الفيديو أحادي العدسة ، مما يسمح له بتعلم التماسك بين اللقطات مباشرة من بيانات الفيديو على مستوى المشهد. يتضمن التصميم المبتكر الأساسي لـ LCT توسيع آليات الاهتمام الكاملة ، وتضمين الموقف ثلاثي الأبعاد المتداخلة ، واستراتيجيات الضوضاء غير المتزامنة. تتيح هذه التصميمات للنموذج "تركيز" جميع المعلومات المرئية والنصية للمشهد بأكمله في نفس الوقت عند إنشاء مقاطع فيديو ، وبالتالي فهم وصيانة تبعيات عبر العدسة بشكل أفضل.
تُظهر النتائج التجريبية أن النموذج الفردي المعدل الذي تم تعديله بشكل جيد في توليد مشاهد متعددة العدسة متماسكة ويوضح بعض القدرات الجديدة المذهلة. على سبيل المثال ، يمكن إنشاؤه مجتمعة استنادًا إلى هوية دور معين وصورة البيئة ، حتى لو لم يتم تدريب النموذج بشكل خاص على هذه المهام من قبل. بالإضافة إلى ذلك ، يدعم طراز LCT أيضًا توسع العدسة التلقائية ، والذي يمكن تحقيقه سواء كان امتدادًا مستمرًا للعدسات أو امتداد متعدد العدسات مع تبديل العدسة. هذه الميزة مفيدة بشكل خاص لإنشاء الفيديو الطويل لأنها تنقسم توليد الفيديو الطويل إلى قطاعات مشهد متعددة ، مما يسهل المستخدمين إلى إجراء تعديلات تفاعلية.
بعد المضي قدمًا ، وجد الباحثون أيضًا أنه بعد LCT ، يمكن أن تكون النماذج ذات الاهتمام ثنائي الاتجاه مزيد من التغلب على الاهتمام السببي السياقي. تظل آلية الانتباه المحسنة هذه الاهتمام ثنائي الاتجاه داخل كل عدسة ، ولكن بين العدسات ، يمكن أن تتدفق المعلومات فقط من العدسات السابقة إلى العدسات اللاحقة. يتيح تدفق المعلومات في اتجاه واحد هذا الاستخدام بكفاءة KV (آلية التخزين المؤقت) بكفاءة أثناء توليد التصدي التلقائي ، وبالتالي تقليل النفقات الحاسوبية بشكل كبير.
كما هو موضح في الشكل 1 ، يمكن تطبيق تقنية LCT مباشرة على إنتاج الأفلام القصير لتحقيق توليد الفيديو على مستوى المشهد. والأكثر إثارة ، كما أنه يولد مجموعة متنوعة من القدرات الناشئة مثل المديرين التفاعليين المتعددين ، والتوسع الواحد ، وتوليد الجمع بين عينات الصفر ، على الرغم من أن النموذج لم يتم تدريبه على هذه المهام المحددة. كما هو موضح في الشكل 2 ، يتم عرض مثال لبيانات الفيديو على مستوى المشهد ، والذي يحتوي على مطالبات عالمية (تصف الشخصية والبيئة وملخص القصة) وأوصاف أحداث محددة لكل لقطة.
باختصار ، يفتح ضبط السياق الطويل (LCT) مسارًا جديدًا لإنشاء محتوى مرئي أكثر عملية عن طريق توسيع نافذة سياق نموذج نشر الفيديو الواحد ، مما يسمح له بتعلم التماسك على مستوى المشهد مباشرة من البيانات. لا تعمل هذه التكنولوجيا على تحسين القدرة السردية والتماسك لمقاطع الفيديو التي تم إنشاؤها من الذكاء الاصطناعى ، ولكنها توفر أيضًا أفكارًا جديدة لتوليد الفيديو الطويل المستقبلي وتحرير الفيديو التفاعلي. لدينا سبب للاعتقاد بأن إنشاء الفيديو المستقبلي سيصبح أكثر ذكاءً وإبداعًا بسبب التقدم في التقنيات مثل LCT.
عنوان المشروع: https://top.aibase.com/tool/zhangshangiwentiaoyouulct
عنوان الورق: https://arxiv.org/pdf/2503.10589