أعلنت Tencent مؤخرًا عن المصدر المفتوح لأحدث إطار عمل لتوليد الصور إلى الفيديو-Hunyuanvideo-i2v. تمثل هذه الخطوة خطوة مهمة لـ Tencent لتعزيز تطوير مجتمعات المصادر المفتوحة ، وخاصة بعد ناجحها الناجح Hunyuanvideo ، مما يدل أيضًا على قدراتها المبتكرة في مجال الذكاء الاصطناعي.

يجمع Hunyuanvideo-i2v بين تقنيات توليد الفيديو الأكثر تقدماً في الوقت الحالي ، والتي يمكن أن تحول الصور الثابتة إلى محتوى فيديو حي ، مما يوفر للمبدعين إمكانيات أكثر إبداعًا. يحتاج المستخدمون فقط إلى تحميل صورة ووصفوا التأثير الديناميكي للصورة بإيجاز لإنشاء مقطع فيديو قصير مدته خمس ثوانٍ. تتمثل ميزة هذا النموذج في أنه لا يسمح فقط للصور الثابتة بـ "التحرك" ، ولكن يمكن أيضًا مطابقتها تلقائيًا مع المؤثرات الصوتية للخلفية ، مما يعزز بشكل كبير متعة الفيديو وجاذبية الفيديو.
يستخدم Hunyuanvideo-I2V نموذجًا لغة كبير متعدد الوسائط مدرب مسبقًا كمشفر نص ، مما يعزز بشكل كبير قدرة النموذج على فهم المحتوى الدلالي لصورة الإدخال. هذا يعني أن صور إدخال المستخدم يمكن أن تنشئ علامات صور دلالية من خلال النموذج ، والتي يتم دمجها مع علامات الفيديو المحتملة ، وبالتالي تحقيق حساب كامل أكثر شمولاً. وبهذه الطريقة ، يمكن للنظام زيادة التآزر بين طريقة الصورة وطريقة النص ، مما يضمن أن محتوى الفيديو الذي تم إنشاؤه من الصور الثابتة أكثر تماسكًا وواقعية.
من أجل السماح لمزيد من المستخدمين بتجربة هذه الوظيفة ، تم إطلاق موقع Hunyuan AI Video الرسمي ، ويمكن للمستخدمين الوصول مباشرة إلى موقع الويب للعمل. بالإضافة إلى ذلك ، يمكن للمؤسسات والمطورين أيضًا التقدم بطلب للحصول على واجهات API من خلال Tencent Cloud لدمج هذه التكنولوجيا في تطبيقاتها. نموذج الفيديو Tusheng هذا هو استمرار للعمل مفتوح المصدر لنموذج الفيديو Hunyuan Wensheng. تصل المعلمات النموذجية الكلية إلى 13 مليار ، وهو مناسب لتوليد أنواع مختلفة من الشخصيات والمشاهد ، وتغطي مقاطع الفيديو الواقعية وشخصيات الرسوم المتحركة وشخصيات CGI.
أثناء عملية الاستخدام المحددة ، يمكن للمستخدمين أيضًا تحميل الأحرف وإدخال نص أو صوت يريدون "الفم" في "مزامنة الشفاه". يمكن للنظام أن يجعل الشخصيات في الصورة "Speak" أو "Sing". في الوقت نفسه ، أطلقت Hunyuan أيضًا وظيفة "التي تعتمد على الحركة" ، حيث يمكن للمستخدمين إنشاء مقاطع فيديو للرقص المقابلة بنقرة واحدة لتحسين التنوع والمرح في الخلق.
تجدر الإشارة إلى أن نموذج فيديو Tusheng مفتوح المصدر قد تم إصداره في مجتمعات المطورين السائدة مثل Github و Huggingface. يمكن للمطورين تنزيل المحتوى ذي الصلة للتجربة والتطوير. يتضمن المحتوى مفتوح المصدر أوزان نموذجية ورموز الاستدلال ورموز التدريب في Lora ، والتي توفر للمطورين إمكانيات أكثر لتدريب نماذج Lora الحصرية على هذا الأساس.
منذ المصدر المفتوح ، ازدادت شعبية طراز Generation في Huggingface. في ديسمبر من العام الماضي ، تصدرت قمة قائمة اتجاهات Huggingface ، وتجاوز عدد النجوم على Github 8.9k. يقوم العديد من المطورين أيضًا بتصنيع النماذج الإضافية والنماذج المشتقة لـ Hunyuanvideo ، وقد جمعوا أكثر من 900 إصدار مشتق. كما كان أداء نموذج الرسومات الأدبية Hunyuan DIT المفتوح في وقت سابق جيدًا ، مع أكثر من 1600 نموذج مشتق.
الموقع الرسمي: https://video.hunyuan.tencent.com/
Github: https://github.com/tencent/hunyuanvideo-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvideo-i2v