تقدم هذه الورقة نموذج إعادة بناء غاوسي رباعي الأبعاد واسع النطاق يسمى L4GM، وهو قادر على إنشاء كائنات متحركة عالية الجودة بكفاءة من مقاطع فيديو ذات عرض واحد. تم تدريبه على مجموعة بيانات كبيرة تحتوي على مقاطع فيديو متعددة المشاهدة، وهو مصمم بشكل مبتكر لتحقيق سرعة معالجة سريعة تبلغ ثانية واحدة فقط للإرسال في اتجاه واحد. تتمثل ميزة L4GM في أنه يمكنه إعادة إنشاء مقاطع فيديو طويلة ومقاطع فيديو ذات معدل إطارات مرتفع، ويدعم الاستيفاء رباعي الأبعاد لزيادة معدل إطارات الفيديو بشكل كبير. بالإضافة إلى ذلك، يُظهر النموذج أيضًا قدرة تعميم جيدة ويمكنه تحقيق نتائج مرضية في مقاطع فيديو المشهد الحقيقي.
في الآونة الأخيرة، اقترح فريق البحث نموذج إعادة بناء غاوسي رباعي الأبعاد واسع النطاق يسمى L4GM، والذي يمكنه إنشاء كائنات متحركة من مدخلات فيديو أحادية العرض وتحقيق نتائج مبهرة.
المفتاح لهذا النموذج هو مجموعة البيانات المبتكرة والتصميم المبسط، مما يجعل من الممكن إكمال النقل في اتجاه واحد في ثانية واحدة فقط، مع ضمان الجودة العالية للكائنات المتحركة الناتجة.
تركيب الفيديو إلى 4D
يمكن لـ L4GM إنشاء كائنات رباعية الأبعاد من مقاطع الفيديو في بضع ثوانٍ. في مثال الفيديو التالي، يمكنك رؤية الكائن المستهدف في الفيديو الأصلي ونموذج إعادة البناء الغوسي رباعي الأبعاد المطابق.
أعد إنشاء مقاطع فيديو مرنة طويلة وعالية الإطارات في الثانية
وأعد إنشاء فيديو مدته 10 ثوانٍ بمعدل 30 إطارًا في الثانية. كمثال في الفيديو التالي
الاستيفاء 4D
وقام الفريق أيضًا بتدريب نموذج استيفاء رباعي الأبعاد لزيادة معدل الإطارات بمقدار 3 مرات. كمثال في الفيديو التالي
اليسار: قبل الاستيفاء. والصواب: بعد الاستيفاء
بناء مجموعة بيانات الفيديو المنظورية
قام فريق البحث ببناء مجموعة بيانات تحتوي على مقاطع فيديو متعددة المشاهدة تحتوي على كائنات متحركة تم تصميمها بعناية من Objaverse. تعرض مجموعة البيانات هذه 44000 كائن متنوع يغطي 110000 رسم متحرك من 48 وجهة نظر، مما يؤدي إلى إجمالي 120 مليون مقطع فيديو بإجمالي 300 مليون إطار. استنادًا إلى مجموعة البيانات هذه، تم بناء L4GM مباشرةً على نموذج إعادة الإعمار ثلاثي الأبعاد واسع النطاق المُدرب مسبقًا LGM، والذي يقوم بإخراج الأشكال الإهليلجية الغوسية ثلاثية الأبعاد من إدخال صور متعددة العرض.
يحقق L4GM سلاسة زمنية من خلال إنشاء تمثيل دفقة غاوسي ثلاثي الأبعاد لكل إطار على إطارات الفيديو التي تم أخذ عينات منها بمعدل إطارات منخفضة في الثانية، ثم تكبير التمثيل إلى إطارات أعلى في الثانية.
من أجل مساعدة النموذج على تعلم الاتساق الزمني، أضاف فريق البحث طبقة اهتمام ذاتي مؤقتة إلى LGM الأساسي واستخدم فقدان عرض العرض المتعدد في كل خطوة زمنية لتدريب النموذج. من خلال تدريب نموذج الاستيفاء، يتم تكبير هذا التمثيل إلى معدل إطارات أعلى، مما يؤدي إلى تمثيل غاوسي ثلاثي الأبعاد متوسط.
أظهر فريق البحث قدرة تعميم L4GM الجيدة على مقاطع الفيديو في البرية بعد التدريب على البيانات الاصطناعية، مما أدى إلى إنتاج كائنات متحركة ثلاثية الأبعاد عالية الجودة. يقبل النموذج الفيديو أحادي العرض والصور متعددة العرض ذات الخطوة الواحدة كمدخلات، ويخرج مجموعة من التوزيعات الاحتمالية الغوسية رباعية الأبعاد.
الإطار الفني

يأخذ النموذج كمدخل فيديو عرض واحد وصورة متعددة العرض خطوة واحدة، ويخرج مجموعة من Gaussians 4D. إنها تعتمد بنية U-Net، وتستخدم الاهتمام الذاتي عبر الرؤية لتحقيق اتساق العرض، وتستخدم الاهتمام الذاتي من الوقت إلى المكاني لتحقيق الاتساق الزمني.

يسمح L4GM بإعادة الإعمار التلقائي، باستخدام عرض متعدد العرض لآخر Gaussian كمدخل لإعادة الإعمار التالية. يوجد إطار واحد من التداخل بين عمليتي إعادة بناء متتاليتين. بالإضافة إلى ذلك، قام فريق البحث أيضًا بتدريب نموذج استيفاء رباعي الأبعاد. يستقبل نموذج الاستيفاء فيديو العرض المتعدد المحرف المقدم من نتائج إعادة الإعمار ويخرج غاوسي المحرف.
تتضمن سيناريوهات L4GM القابلة للتطبيق ما يلي:
إنشاء محتوى الفيديو: يمكن لـ L4GM إنشاء نماذج رباعية الأبعاد للكائنات المتحركة من إدخال فيديو أحادي العرض، والذي له تطبيقات واسعة في إنتاج مؤثرات الفيديو الخاصة وتطوير الألعاب وغيرها من المجالات. على سبيل المثال، يمكن استخدامه لإنشاء رسوم متحركة ذات تأثيرات خاصة، وإنشاء مشاهد افتراضية، وما إلى ذلك.
إعادة بناء الفيديو وإصلاحه: يستطيع L4GM إعادة إنشاء مقاطع فيديو طويلة المدى وذات معدل إطارات مرتفع ويمكن استخدامه لإصلاح الفيديو واستعادته لتحسين جودة الفيديو ووضوحه. يمكن أن يكون هذا مفيدًا في استعادة الأفلام وضغط الفيديو ومعالجة الفيديو.
استيفاء الفيديو: من خلال نموذج الاستيفاء رباعي الأبعاد المدرب، يمكن لـ L4GM زيادة معدل إطارات الفيديو وجعل الفيديو أكثر سلاسة. وهذا له تطبيقات محتملة في تحرير الفيديو، وإنتاج تأثير الحركة البطيئة/السريعة، وما إلى ذلك.
إنشاء أصول ثلاثية الأبعاد: يمكن لـ L4GM إنشاء أصول ثلاثية الأبعاد متحركة عالية الجودة، وهو أمر مفيد جدًا لإنشاء نماذج ثلاثية الأبعاد في الواقع الافتراضي (VR)، وتطبيقات الواقع المعزز (AR)، وتطوير الألعاب.
مدخل المنتج: https://top.aibase.com/tool/l4gm
بشكل عام، حقق نموذج L4GM تقدمًا كبيرًا في مجال إعادة الإعمار الغاوسي رباعي الأبعاد، كما أن كفاءته العالية وإنتاجه عالي الجودة وآفاق تطبيقه الواسعة تجعله نتيجة بحثية ذات أهمية كبيرة. سيؤدي ظهور هذا النموذج إلى تعزيز التقدم بشكل كبير في مجالات مثل معالجة الفيديو وتوليد الأصول ثلاثية الأبعاد.