Deepmind video to audio technology V2A: تحقيق الموسيقى التصويرية والدبلجة التلقائية لمقاطع الفيديو

الكاتب：Eve Cole وقت التحديث：2025-02-24 00:25:01

V2A، أحدث تقنيات تحويل الفيديو إلى الصوت الصادرة عن Google DeepMind، يمكنها إنشاء مسارات صوتية متزامنة وواقعية استنادًا إلى صور الفيديو والمطالبات النصية لمقاطع الفيديو الصامتة. تستخدم هذه التقنية نماذج الانحدار الذاتي والانتشار، جنبًا إلى جنب مع التعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي، لفهم الارتباط بين أحداث صوتية محددة ومشاهد مرئية، مما يتيح إنشاء صوت أكثر دقة وإبداعًا. يمكن للمستخدمين التحكم في إخراج الصوت من خلال "الإشارات الإيجابية" و"الإشارات السلبية" لإنشاء مسارات صوتية تتوافق مع محتوى الفيديو والتأثيرات المقصودة. لا يدعم V2A إنشاء مقاطع صوتية درامية ومؤثرات صوتية واقعية فحسب، بل يقوم أيضًا بإنشاء حوار يتوافق مع شخصيات ونبرة الفيديو، مما يوفر أداة مساعدة قوية لإنتاج الفيديو.

أصدرت Google DeepMind تقنية تحويل الفيديو إلى الصوت، V2A، تستخدم تقنية V2A وحدات بكسل الفيديو والمطالبات النصية لإنشاء مسارات صوتية غنية وإنشاء مقاطع صوتية لمقاطع الفيديو الصامتة وتحقيق توليد صوتي ومرئي متزامن.

مدخل المنتج: https://top.aibase.com/tool/deepmind-v2a

يمكن للمستخدمين توجيه إخراج الصوت من خلال الأوصاف النصية لـ "المطالبات الإيجابية" أو "المطالبات السلبية" لتحقيق تحكم دقيق في إنشاء المسار الصوتي. يستخدم نظام V2A طرق الانحدار الذاتي والانتشار لتوليد الصوت، وتحقيق إخراج صوتي متزامن وواقعي. أثناء عملية التدريب، يستخدم النظام التعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي لمساعدة النموذج على فهم كيفية ارتباط أحداث صوتية محددة بالمشهد المرئي.

كيف يعمل:

تقوم أنظمة V2A أولاً بتشفير إدخال الفيديو إلى تمثيل مضغوط. يقوم نموذج الانتشار بعد ذلك بتنقيح الصوت بشكل متكرر من الضوضاء العشوائية. يتم توجيه هذه العملية من خلال المدخلات المرئية وإشارات اللغة الطبيعية المقدمة لإنتاج صوت متزامن وواقعي يتطابق بشكل وثيق مع الإشارات. وأخيرًا، يتم فك تشفير إخراج الصوت، وتحويله إلى شكل موجة صوتية ودمجه مع بيانات الفيديو.

رسم تخطيطي لنظام V2A يستخدم وحدات بكسل الفيديو ومدخلات إشارة الصوت لإنشاء أشكال موجية صوتية متزامنة مع الفيديو الأساسي. أولاً، يقوم V2A بتشفير مدخلات الفيديو والصوت وتشغيله بشكل متكرر من خلال نموذج الانتشار. يتم بعد ذلك إنشاء الصوت المضغوط وفك تشفيره إلى شكل موجة صوتية.

لتوليد صوت عالي الجودة وزيادة القدرة على توجيه النموذج لإنتاج أصوات محددة، تتم إضافة المزيد من المعلومات أثناء عملية التدريب، بما في ذلك التعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي مع أوصاف تفصيلية للأصوات ونصوص المحادثات المنطوقة.

من خلال التدريب على الفيديو والصوت والتعليقات التوضيحية المرفقة، تتعلم التكنولوجيا ربط أحداث صوتية محددة بمشاهد مرئية مختلفة أثناء الاستجابة للمعلومات المقدمة في التعليقات التوضيحية أو التسجيلات.

ميزات V2A:

توليد الصوت: يقوم V2A تلقائيًا بإنشاء مسارات صوتية متزامنة بناءً على لقطات الفيديو والأوصاف النصية المقدمة من المستخدم، بما في ذلك لقطات من الموسيقى التصويرية الدرامية أو المؤثرات الصوتية الواقعية أو الحوار الذي يتناسب مع شخصيات ونبرة الفيديو.

الصوت المتزامن: استخدم طرق الانحدار الذاتي والانتشار لإنشاء الصوت، مما يضمن مزامنة الصوت الناتج تمامًا مع محتوى الفيديو ويوفر إخراجًا صوتيًا واقعيًا.

مسارات صوتية متنوعة: يمكن للمستخدمين إنشاء عدد غير محدود من المسارات الصوتية، وتجربة مجموعات مختلفة من المؤثرات الصوتية، والعثور على الصوت الذي يناسب محتوى الفيديو.

التحكم في الإشارات: يمكن للمستخدمين توجيه إنشاء المسار من خلال تحديد "الإشارة الإيجابية" أو "الإشارة السلبية"، وإضافة التحكم في الإخراج وتوجيهه بعيدًا عن الأصوات غير المرغوب فيها.

استخدام التعليقات التوضيحية أثناء التدريب: أثناء عملية التدريب، يستخدم النظام التعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي لمساعدة النموذج على فهم الارتباط بين أحداث صوتية محددة ومشاهد مرئية.

لتحسين جودة توليد الصوت، قدم فريق البحث المزيد من المعلومات في عملية التدريب، مثل التعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي مع الأوصاف الصوتية وتسجيلات الحوار المنطوق. مثل هذا التدريب الغني بالمعلومات يمكّن التكنولوجيا من فهم محتوى الفيديو بشكل أفضل وإنتاج تأثيرات صوتية تتناسب مع المشهد المرئي.

ومع ذلك، لا تزال هناك بعض التحديات، ويعمل الفريق على تحسين مزامنة الشفاه لمقاطع الفيديو التي تتضمن الكلام. يحاول V2A إنشاء الكلام بناءً على إدخال النص المكتوب ومزامنته مع حركات شفاه الشخصية. لكن نماذج إنشاء الفيديو المقترنة قد لا تكون مشروطة بالنص المكتوب. يؤدي هذا إلى عدم التطابق، مما يؤدي في كثير من الأحيان إلى مزامنة غريبة للشفاه، حيث أن نموذج الفيديو لا يولد حركات الفم التي تتطابق مع النص المكتوب.

ستخضع تقنية V2A لتقييم واختبار أمني صارم قبل إتاحتها للجمهور. فيما يلي بعض حالات الدبلجة التي تم إنشاؤها بواسطة V2A:

1. موجه صوتي: يعوي الذئب عند القمر

2. الإشارات الصوتية: الأفلام، أفلام الإثارة، أفلام الرعب، الموسيقى، التوتر، الجو، خطى على الخرسانة

3. إشارة الصوت: عازف الدرامز على مسرح الحفلة محاطًا بالأضواء الساطعة والحشود المبتهجة

المطالبات الصوتية: النقيق الديناصور الصغير اللطيف، جو الغابة، تكسير البيض

ملحوظة: مقاطع الفيديو الموجودة في هذه المقالة كلها من أمثلة Google الرسمية

بشكل عام، توفر تقنية V2A الخاصة بـ Google DeepMind إمكانيات جديدة لإنشاء محتوى الفيديو، كما أن إمكاناتها القوية لتوليد الصوت وطرق التشغيل المريحة ستحسن بشكل كبير من كفاءة إنتاج الفيديو. على الرغم من أنه لا تزال هناك بعض التحديات التي يتعين التغلب عليها، إلا أن آفاق التطوير المستقبلية لتقنية V2A تستحق التطلع إليها.