في الآونة الأخيرة ، أعلنت HPC-AAI Tech عن إطلاق Open-Sora 2.0 ، وهو نظام AI فيديو اختراق يمكنه تحقيق جودة من الدرجة التجارية في حوالي عشرة تكلفة التدريب النموذجية. يمثل هذا التقدم تحولًا محتملًا للنموذج في حقل AI للفيديو المكثف للموارد ، مماثلة لمكاسب الكفاءة التي شوهدت في نماذج اللغة.
في حين أن أنظمة توليد الفيديو عالية الجودة الحالية مثل فيلم Gen و Step-Video-T2V قد تتطلب ملايين الدولارات في التدريب ، فإن إنفاق تدريب Open-Sora2.0 هو حوالي 200000 دولار فقط. على الرغم من تخفيض التكاليف الكبير ، فقد أظهر الاختبار أن جودة الناتج قابلة للمقارنة مع الأنظمة التجارية المعمول بها مثل Runway Gen-3Alpha و Hunyuanvideo. يستخدم النظام 224 NVIDIA H200GPUS للتدريب.
نصيحة: "امرأتان تجلسان على أريكة بيج ، الغرفة دافئة ومريحة ، مع جدران من الطوب في الخلفية. يتحدثان بسعادة ويبتسمان ويرفعان النظارات للاحتفال بالنبيذ الأحمر في الطلقة المتوسطة الحميمة." | فيديو: HPC-AAI Tech
يحقق Open-SORA2.0 كفاءته من خلال عملية تدريب جديدة من ثلاث مراحل ، بدءًا من الفيديو منخفض الدقة ويؤدي تدريجياً إلى قرارات أعلى. نماذج الصور المتكاملة التي تم تدريبها مسبقًا مثل Flux تعمل على تحسين استخدام الموارد. في جوهرها ، يوجد فيديو DC-AAE Autoencoder ، والذي يوفر معدلات ضغط ممتازة مقارنة بالطرق التقليدية. يترجم هذا الابتكار إلى سرعة تدريب أسرع بحجم 5.2x وأكثر من Tenx بشكل أسرع لتوليد الفيديو. في حين أن معدلات الضغط الأعلى تؤدي إلى انخفاض طفيف في تفاصيل الإخراج ، فإنه يسرع إلى حد كبير من عملية إنشاء الفيديو.
نصيحة: "تتصفح الطماطم شريحة من الخس ، أسفل شلال صلصة المراعي ، وركوب الأمواج المبالغ فيها وتأثيرات الموجة السلسة تسليط الضوء على متعة الرسوم المتحركة ثلاثية الأبعاد." | فيديو: HPC-AAI Tech
يمكن لهذا النظام مفتوح المصدر إنشاء مقاطع فيديو من أوصاف نصية وصور واحدة ، ويسمح للمستخدمين بالتحكم في شدة الحركة في المقاطع التي تم إنشاؤها من خلال وظيفة تسجيل الحركة. تعرض الأمثلة التي توفرها HPC-AAI Tech مجموعة متنوعة من السيناريوهات ، بما في ذلك الحوار الواقعي والرسوم المتحركة غريب الأطوار.
ومع ذلك ، فإن Open-Sora 2.0 له حاليًا قيود في الدقة (768 × 768 بكسل) وحد أقصى مدة فيديو (5 ثوان أو 128 إطارًا) ، وهو أدنى من إمكانيات النماذج الرائدة مثل Openai's Sora. ومع ذلك ، فإن أدائها في المجالات الرئيسية مثل الجودة البصرية ودقة العظة ومعالجة الحركة يقترب من المعايير التجارية. تجدر الإشارة إلى أن درجة VBENCH من Open-SORA2.0 هي الآن 0.69 ٪ فقط خلف Openai's Sora ، وهو تحسن كبير من الإصدار السابق 4.52 ٪.
نصيحة: "حفنة من الفطر المجسم التي تحمل حفلة ديسكو في غابة سحرية مظلمة ، مصحوبة بأضواء نيون واضحة وخطوات الرقص المبالغ فيها ، وتؤكد قوامها السلسة وأسطحها العاكسة على المظهر ثلاثي الأبعاد المضحك." | فيديو: HPC-AAI Tech
تردد الاستراتيجية الفعالة من حيث التكلفة لـ Open-SORA2.0 "لحظة Deepseek" في نموذج اللغة ، عندما مكنت أساليب التدريب المحسنة أنظمة المصادر المفتوحة من الدرجة التجارية بتكلفة أقل بكثير من الأنظمة التجارية. يمكن أن يضع هذا التطور ضغوطًا هابطة على الأسعار في حقل الفيديو الذكري ، والذي يتم شحنه حاليًا بالثواني بسبب ارتفاع الطلب على الحوسبة.

مقارنة تكلفة التدريب: تكلف Open-SORA2.0 حوالي 200000 دولار ، بينما يكلف فيلم Gen 2.5 مليون دولار ، ويكلف STEP-Video-T2V مليون دولار. | الصورة: HPC-AAI Tech
على الرغم من هذا التقدم ، فإن فجوة الأداء بين المصدر المفتوح والفيديو التجاري لا تزال أكبر من طرازات اللغة ، وتسليط الضوء على التحديات التقنية المستمرة في هذا المجال. Open-Sora2.0 متاح الآن كمشروع مفتوح المصدر على Github.