تقارير محرر Downcodes: تعاونت Adobe وجامعة ميشيغان لتطوير نظام توليد مؤثرات صوتية يعمل بالذكاء الاصطناعي يسمى MultiFoley، والذي يمكنه إنشاء مؤثرات صوتية مدبلجة في الأفلام ومقاطع الفيديو من خلال المطالبات النصية وأمثلة الصوت أو الفيديو، مما يؤدي إلى تحسين كفاءة ما بعد الإنتاج بشكل كبير. يدعم النظام طرق إدخال متعددة ويمكنه تحويل الأصوات المختلفة، مثل مواء القطة إلى زئير الأسد. حصلت جودة إخراج الصوت ذات النطاق الترددي العالي ومزامنة الفيديو الدقيقة على تقييمات عالية للغاية في اختبارات المستخدم.
في الآونة الأخيرة، قام فريق أبحاث Adobe وباحثون من جامعة ميشيغان بتطوير نظام ذكاء اصطناعي يسمى MultiFoley، ويمكن لهذا النظام إنشاء مؤثرات صوتية مدبلجة في الأفلام ومقاطع الفيديو للمساعدة في مرحلة ما بعد الإنتاج.
يعد MultiFoley مبتكرًا لأنه يسمح للمستخدمين بإنشاء مؤثرات صوتية من خلال المطالبات النصية أو أمثلة الصوت أو الفيديو المرجعية. وفي العروض التوضيحية، كان النظام قادرًا على تحويل مواء القطة إلى زئير أسد، أو أصوات الآلة الكاتبة إلى نغمات البيانو، وكل ذلك في تزامن تام مع لقطات الفيديو.
تصل جودة إخراج الصوت في MultiFoley إلى نطاق ترددي عالٍ يبلغ 48 كيلو هرتز، ويرجع ذلك أساسًا إلى استخدام الباحثين لمقاطع الفيديو ومكتبات المؤثرات الصوتية الاحترافية على الإنترنت للتدريب. على عكس الأنظمة السابقة، يقوم MultiFoley بدمج طرق إدخال متعددة - مراجع النص والصوت والفيديو - في نفس النموذج لأول مرة. وهو يعمل عن طريق تحليل الخصائص المرئية بمعدل 8 إطارات في الثانية وتضخيمها لتتناسب مع معدل أخذ عينات الصوت البالغ 40 هرتز، مما يضمن بقاء الصوت الناتج متزامنًا بإحكام مع الفيديو.

في الاختبارات، كان أداء MultiFoley جيدًا في مزامنة الصوت والفيديو ومطابقة المؤثرات الصوتية مع أوصاف النص، بمتوسط دقة مزامنة تبلغ 0.8 ثانية، وهو أفضل بكثير من التأخير النموذجي لأكثر من ثانية واحدة في الأنظمة التقليدية. أظهر بحث المستخدم أن 85.8% من المشاركين صنفوا MultiFoley متفوقًا على ثاني أفضل من حيث الاتساق الدلالي، بينما فضل 94.5% تأثير التزامن.

على الرغم من أن MultiFoley أظهر إمكانات قوية، إلا أن فريق البحث أشار أيضًا إلى بعض القيود الحالية، مثل بيانات التدريب الصغيرة نسبيًا، والتي تحد من تنوع المؤثرات الصوتية التي يمكن استخدامها. وفي الوقت نفسه، يواجه النظام أيضًا بعض الصعوبات في إنشاء مؤثرات صوتية متعددة في وقت واحد. ويخطط فريق البحث لإصدار الكود المصدري والنموذج قريبًا.
على الرغم من أن Adobe لم تعلن عن إدراج MultiFoley في منتجاتها، إلا أن التكنولوجيا تتلاءم بشكل جيد مع قدرات الذكاء الاصطناعي الموجودة في برنامج تحرير الفيديو Adobe Premiere Pro ومن المتوقع أن توفر الراحة للمبدعين الأفراد وشركات الإنتاج في عملية تصميم الصوت.
تسليط الضوء على:
MultiFoley هو نظام لتوليد المؤثرات الصوتية يعمل بالذكاء الاصطناعي تم تطويره بشكل مشترك بواسطة Adobe وجامعة ميشيغان. ويمكنه إنشاء مؤثرات صوتية من خلال مجموعة متنوعة من طرق الإدخال.
تصل جودة إخراج الصوت لهذا النظام إلى 48 كيلو هرتز، ويبلغ متوسط دقة المزامنة 0.8 ثانية، وهو أفضل من أنظمة المؤثرات الصوتية التقليدية.
تظهر دراسات المستخدم أن MultiFoley يتلقى تقييمات عالية لكل من الاتساق الدلالي وتزامن المؤثرات الصوتية.
بشكل عام، جلب ظهور MultiFoley إمكانيات جديدة لإنتاج المؤثرات الصوتية، ومن المتوقع أن يؤدي أدائها الفعال والدقيق وتشغيلها المريح إلى تغيير عملية إنتاج المؤثرات الصوتية المستقبلية. دعونا نتطلع إلى إصدار الكود المصدري والنماذج، بالإضافة إلى تطبيقه في منتجات Adobe.