في الآونة الأخيرة ، أصدر فريق DeepBeepmeep Wan2.1GP على Github ، وهو نموذج لتوليد الفيديو المحسن لمستخدمي GPU المنخفضين. استنادًا إلى WAN2.1 من Alibaba ، تم تصميم النموذج لتوفير إمكانات قوية لتوليد الفيديو للمستخدمين الذين يفتقرون إلى موارد GPU عالية الأداء. يمثل إطلاق WAN2.1GP تقدمًا مهمًا في تكنولوجيا توليد الفيديو ، وخاصة في مجال المصدر المفتوح.
تتضمن الميزات الرئيسية لـ WAN2.1GP أدائها الممتاز وتطبيقها الواسع. يستمر النموذج في تجاوز النماذج المفتوحة المصدر الحالية وبعض الحلول التجارية في معايير متعددة ، مما يدل على قدرة تنافسية قوية. بالإضافة إلى ذلك ، يتطلب طراز T2V-1.3b فقط 8.19 جيجابايت من ذاكرة الفيديو ، مما يجعل جميع وحدات معالجة الرسومات على مستوى المستهلك تقريبًا. من خلال بطاقة رسومات RTX4090 ، يمكن للمستخدمين إنشاء مقطع فيديو مدته 5 ثوانٍ 480 بكسل في حوالي 4 دقائق ، وأدائهم يمكن مقارنته ببعض نماذج المصدر المغلقة.
لا يدعم WAN2.1GP رسالة نصية إلى الفيديو والصورة إلى الفيديو وتحرير الفيديو والمهام الأخرى فحسب ، بل إنها أيضًا أول نموذج فيديو يمكنه إنشاء نص صيني وإنجليزي في نفس الوقت. توفر هذه الميزة المزيد من الاحتمالات للتطبيقات العملية للمستخدمين. بالإضافة إلى ذلك ، تم تجهيز النموذج بأدوات تلقائية للفيديو قوية (VAE) ، والتي يمكن أن تشفر وفك تشفير مقاطع فيديو 1080 بكسل بكفاءة من أي طول ، والاحتفاظ بالمعلومات الزمنية سليمة ، ووضع أساس متين لتوليد الفيديو والصور.
لتحسين تجربة المستخدم ، قامت WAN2.1GP بإجراء العديد من التحسينات ، بما في ذلك تقليل متطلبات الذاكرة وذاكرة الفيديو بشكل كبير ، ويدعم تكوينات متعددة لتناسب الأجهزة بأداء مختلف. يمكن للمستخدمين البدء بسرعة بهذه الأداة من خلال عملية تثبيت مبسطة. من خلال تحديثات الإصدار المستمر ، أضافت Wan2.1GP تدريجياً وظائف أكثر عملية ، مثل دعم ذاكرة التخزين المؤقت للشاي ، وتحسين واجهة Gradio ، وما إلى ذلك ، مما يؤدي إلى تحسين سرعة توليد الاستخدام.
مدخل المشروع: https://github.com/deepbeepmeep/wan2gp
النقاط الرئيسية:
أداء SOTA: يعمل WAN2.1GP جيدًا في معايير متعددة ، متجاوزًا الحلول المفتوحة المصدر والتجارية الحالية.
توافق قوي: مطلوب فقط 8.19 جيجابايت من ذاكرة الفيديو ، وهو يدعم جميع وحدات معالجة الرسومات على مستوى المستهلك تقريبًا ، مناسبة للمستخدمين المنخفضين.
دعم متعدد المهام: يدعم مهام التوليد المتعددة مثل النص إلى الفيديو ، والصورة إلى الفيديو ، ولديه القدرة على توليد نصوص صينية وإنجليزية.