في الآونة الأخيرة ، أعلنت Alibaba أن طراز Generation Wanx2.1 سيكون مفتوح المصدر بالكامل وأعلن عن أحدث تأثيرات الفيديو. جذبت هذه الأخبار اهتمامًا واسع النطاق في مجتمع التكنولوجيا ، مما يمثل اختراقًا كبيرًا آخر في تقنية الذكاء الاصطناعي في مجال توليد الفيديو.
في يناير 2025 ، أطلق فريق Alibaba Tongyi Wanxiang نموذج WANX2.1 متعدد الوسائط. من خلال أدائه المتميز في مجال توليد الفيديو ، تصدرت النموذج قائمة مراجعة VBENCH ، وأعيد تعريف معايير إنشاء المرئي AI-AI-AI-AF. أعلن فريق WANX الليلة الماضية أنه سيفتح مصدرًا لتوليد الفيديو WANX2.1 ، والذي سيعزز بلا شك تعميات وتطبيق تقنية الذكاء الاصطناعى.
وتفيد التقارير أن WANX2.1 يتغلب على مشكلة توليد النصوص الطويلة في نماذج فيديو الذكاء الاصطناعى لأول مرة ، وتصبح أول نموذج في العالم لدعم المؤثرات الخاصة النصية الصينية والإنجليزية. يحتاج المستخدمون فقط إلى إدخال تعليمات نصية لإنشاء مقاطع فيديو ديناميكية ومطابقةها مع التحولات المتنوعة والجزيئات والمؤثرات الخاصة الأخرى. بالإضافة إلى ذلك ، من خلال هياكل VAE و DIT الفعالة التي تم تطويرها ذاتيًا ، يدرك النموذج الترميز الفعال وفك تشفير مقاطع فيديو 1080 بكسل طويلة بشكل غير محدود ، مما يحسن بشكل كبير إمكانات نمذجة السياق المكاني والزماني.
من حيث محاكاة القانون الفيزيائي ، يمكن لـ WANX2.1 استعادة سيناريوهات معقدة بدقة مثل التصادم والارتداد والقطع. على سبيل المثال ، عند إنشاء مقاطع فيديو لـ "قطرات المطر السقوط على سطح المظلة وماء رش" أو "متزلجين الشكل" ، يتماشى التنسيق البدني ومسار الحركة مع القوانين الفيزيائية الحقيقية ، ويحلون بشكل فعال مشاكل التشوه الجسدي والحركات القاسية للنماذج التقليدية. يجلب هذا الاختراق التكنولوجي تجربة بصرية أكثر واقعية وسلسة لتوليد الفيديو الذكاء الاصطناعي.