طور باحثون من جامعة سنغافورة الوطنية وجامعة بوردو تقنية متقدمة تسمى PAB تتيح المعالجة في الوقت الفعلي لتوليد الفيديو بناءً على تحويل الانتشار. تعتمد هذه التقنية على نموذج Diffusion Transformer (DiT) وتعمل على تحسين سرعة توليد الفيديو بمقدار 10.6 مرة عن طريق تقليل حسابات الانتباه الزائدة، لتصل إلى 21.6 إطارًا في الثانية بشكل مذهل. يمكن تطبيق PAB على العديد من نماذج إنشاء فيديو DiT الشائعة، مثل Open-Sora وOpen-Sora-Plan وLatte، بدون تدريب إضافي، مما يضع أساسًا متينًا لتكنولوجيا إنشاء الفيديو في الوقت الفعلي في المستقبل. فهو لا يعمل على تحسين سرعة المعالجة بشكل كبير فحسب، بل يقلل أيضًا بشكل كبير من حمل الاتصال بين وحدات معالجة الرسومات المتعددة مع ضمان جودة الفيديو، مما يوفر إمكانات استدلال موزعة أكثر كفاءة لإنشاء الفيديو في الوقت الفعلي. فيما يلي شرح أكثر تفصيلاً لتقنية PAB.
في الآونة الأخيرة، نجح باحثون من جامعة سنغافورة الوطنية وجامعة بوردو في اقتراح تقنية PAB لتحقيق المعالجة في الوقت الفعلي لتوليد الفيديو بناءً على تحويل الانتشار.
مدخل المنتج: https://top.aibase.com/tool/pab
هذه التقنية هي المحاولة الأولى لنموذج توليد فيديو يعتمد على Diffusion Transformer (DiT)، حيث يحقق سرعة توليد تصل إلى 21.6 إطارًا في الثانية عن طريق تقليل حسابات الانتباه الزائدة، وتسارع 10.6x، دون التضحية بالجودة. يعمل مع العديد من DiT الشائعة نماذج إنشاء الفيديو، بما في ذلك Open-Sora وOpen-Sora-Plan وLatte. PAB هي طريقة خالية من التدريب يمكنها تمكين نماذج إنشاء فيديو DiT المستقبلية من خلال إمكانات الإنشاء في الوقت الفعلي. لا يتطلب PAB أي تدريب ويمكن أن يمنح أي نموذج إنشاء فيديو قائم على تحويل الانتشار في المستقبل القدرة على المعالجة في الوقت الفعلي.

الميزات الهامة:
يعمل بث انتباه PAB على تحسين سرعة إنشاء الفيديو بشكل كبير عن طريق تقليل حسابات الاهتمام الزائدة وتحقيق الإنشاء في الوقت الفعلي.
استنادًا إلى الاستقرار والاختلاف في الاهتمام، يقوم PAB بتعيين نطاقات بث مختلفة لأنواع مختلفة من الاهتمام، وبالتالي تقليل فقدان الجودة مع ضمان الكفاءة الحسابية.
من خلال تحسين تقنية المعالجة المتوازية التسلسلية، يقلل PAB من عبء الاتصال بين وحدات معالجة الرسومات المتعددة ويحسن سرعة وكفاءة إنشاء الفيديو.
وجد الباحثون أن هناك اختلافات واضحة بين الخطوات الزمنية في آلية الانتباه في نموذج تحويل نشر الفيديو، ومن خلال هذا الاكتشاف، تم اقتراح PAB للتخفيف من حسابات الانتباه غير الضرورية. في الجزء الأوسط المستقر، يبث PAB مخرجات الانتباه من خطوة نشر واحدة إلى عدة خطوات لاحقة، مما يقلل بشكل كبير من التكلفة الحسابية. بالإضافة إلى ذلك، من أجل حساب أكثر كفاءة وتقليل فقدان الجودة، يتم تعيين نطاقات بث مختلفة لأنواع مختلفة من الاهتمام.
من أجل زيادة تحسين سرعة إنشاء الفيديو، قام الباحثون بتحسين طريقة المعالجة المتوازية القائمة على توازي التسلسل الديناميكي (DSP)، والذي قضى على معظم حمل الاتصالات عن طريق بث انتباه الوقت، مما حقق تخفيضًا يزيد عن 50٪ في حمل الاتصالات، و توفير توليد الفيديو في الوقت الحقيقي يوفر قدرات استدلال موزعة أكثر كفاءة.
أبرز النقاط:
⭐ تتيح تقنية PAB إمكانية إنشاء الفيديو في الوقت الفعلي وتسريع سرعة المعالجة بمقدار 10.6 مرة.
⭐ من خلال ملاحظة الاختلاف في آلية الانتباه لنموذج تحويل نشر الفيديو، يُقترح PAB للتخفيف من حسابات الانتباه غير الضرورية.
⭐ من خلال تحسين طريقة المعالجة المتوازية، يتم تقليل حمل الاتصالات بشكل كبير، مما يوفر إمكانات استدلال موزعة أكثر كفاءة لإنشاء الفيديو في الوقت الفعلي.
يمثل ظهور تقنية PAB طفرة كبيرة في تكنولوجيا توليد الفيديو في الوقت الفعلي، مما يوفر إمكانات معالجة قوية في الوقت الفعلي لنماذج إنشاء الفيديو المستقبلية بناءً على تحويل الانتشار، ومواصلة توسيع آفاق تطبيق الذكاء الاصطناعي في مجال الفيديو. من المعتقد أن تقنية PAB ستلعب دورًا متزايد الأهمية في مجال توليد الفيديو في المستقبل.