في الآونة الأخيرة ، أصدرت Nvidia نموذجًا لتوليد الفيديو يسمى Magic1-For-1 ، والذي قام مرة أخرى بتعريف تصور الأشخاص لإنشاء فيديو الذكاء الاصطناعى. إن أكبر ما يميز هذا النموذج هو أنه يمكنه إنشاء محتوى فيديو كامل لمدة دقيقة واحدة في دقيقة واحدة فقط ، لتحقيق "التأثير السحري" لـ "الجيل الفوري". لا توضح تقنية الاختراق هذه الإمكانات الضخمة لوكالة الذكاء الاصطناعى في مجال توليد الفيديو فحسب ، بل توفر أيضًا إمكانيات جديدة لإنشاء المحتوى الرقمي المستقبلي.

يتمثل الابتكار الأساسي لنموذج Magic1-For-1 في أنه يحطم مهمة توليد "Toxt-to-Video" المعقدة إلى خطوتين للانتشار المعالج بسهولة أكبر: "توليد نص إلى صورة" و "توليد صورة إلى الفيديو". لا تقلل استراتيجية التحلل هذه فقط من صعوبة التدريب النموذجي ، ولكنها أيضًا تعمل على تحسين سرعة التوليد والكفاءة. أشار الباحثون إلى أنه في ظل خوارزمية التحسين نفسها ، فإن عملية التوليد بأكملها لنموذج Magic1-for-1 أسهل في التقارب ، وبالتالي تحقيق توليد فيديو أسرع وأكثر استقرارًا. لا ينعكس نجاح هذه التكنولوجيا فقط في التوفير الزمني ، ولكن أيضًا في تحسين استهلاك الذاكرة وتأخير الاستدلال ، مما يجعل عملية توليد مقاطع فيديو عالية الجودة أكثر سلاسة وأكثر كفاءة.
لم تكتمل NVIDIA هذه التكنولوجيا المتقدمة بشكل مستقل ، ولكن تم إطلاقها من قبل فرق من مؤسسات الأبحاث مثل جامعة Peking و Hedra Inc. قاموا بتلخيص الفكرة الأساسية لنموذج "Magic1-For-1" على أنها "لتبسيط التعقيد". من خلال تقسيم العملية المعقدة للرسائل النصية إلى خطوتين أبسط ، استفاد فريق البحث بالكامل من المزايا الناضجة والفعالة نسبيًا لـ "توليد النص إلى صورة" ، وبالتالي تسريع عملية توليد الفيديو بأكملها. لا ينعكس نجاح هذه الطريقة فقط في التوفير الزمني ، ولكن أيضًا في تحسين استهلاك الذاكرة وتأخير الاستدلال ، مما يجعل عملية توليد مقاطع فيديو عالية الجودة أكثر سلاسة وأكثر كفاءة.
على مستوى التنفيذ الفني ، يستخدم طراز "Magic1-For-1" خوارزميات تقطير الخطوة المتقدمة ، بهدف تدريب نموذج "مولد" لإنشاء فيديو عالي الجودة في بضع خطوات فقط. لتحقيق هذا الهدف ، قام فريق البحث أيضًا بتصميم نموذجين إضافيين لتقريب توزيع البيانات الحقيقي وإنشاء توزيع البيانات. من خلال محاذاة هذه التوزيعات بدقة ، يمكن أن يتعلم نموذج "المولد" بشكل أكثر فعالية وإنشاء محتوى فيديو أكثر واقعية. بالإضافة إلى ذلك ، قدم النموذج تقنية تقطير CFG بشكل مبتكر ، مما يقلل من النفقات العامة الحسابية في عملية الاستدلال ، وبالتالي تحقيق قفزة في سرعة التوليد مع ضمان جودة الفيديو.
لإظهار الأداء القوي لنموذج "magic1-for-1" ، قدم الباحثون مظاهرة رائعة. تظهر النتائج أن النموذج يمكن أن يولد مقاطع فيديو عالية الجودة مذهلة في 50 أو حتى 4 خطوات. من بينها ، تُظهر النسخة المكونة من 50 خطوة من الفيديو تفاصيل الحركة والتكوين الغنية ، مع صور حية وحساسة ؛ في حين أن الإصدار المكون من 4 خطوات يركز أكثر على إظهار قدرات المعالجة الفعالة للنموذج ، وسرعة توليدها مثيرة للإعجاب. الأمر الأكثر إثارة للدهشة هو أنه بمساعدة طريقة النافذة المنزلق ، يمكن أن يولد نموذج "Magic1-For-1" مقاطع فيديو مثيرة تدوم لمدة تصل إلى دقيقة واحدة ، مع ضمان جودة بصرية ممتازة وأداء رياضي سلس.
لم يجلب ظهور نموذج "Magic1-For-1" التغييرات الثورية في مجال إنشاء الفيديو فحسب ، بل وفر أيضًا أفكارًا واتجاهات جديدة للتطوير المستقبلي لتوليد المحتوى الرقمي. يمكن توقع أنه من خلال التعميم المستمر وتطبيق هذه التكنولوجيا ، فإنه سيجذب حتما الاهتمام الواسع النطاق لمزيد من المبدعين والمطورين ، وسوف يعزز بشكل فعال التطور السريع وازدهار صناعة توليد الفيديو AI بأكملها.
عنوان المشروع: https://magic-141.github.io/magic-141/