أحدثت أحدث تقنيات توليد الصوت من Google مرة أخرى مع معيار الصناعة. لا تولد تقنية الاختراق هذه محادثات طبيعية تصل إلى دقيقتين فقط في 3 ثوانٍ ، ولكنها تضمن أيضًا تماسك الصوت وأداء جودة الصوت بين مكبرات الصوت المتعددة. تم استخدام هذه التكنولوجيا في العديد من منتجات Google مثل Gemini Live و Project Astra ، وتغير الطريقة التي يتفاعل بها الناس مع المساعدين الرقميين وأدوات الذكاء الاصطناعي في جميع أنحاء العالم.

خلال السنوات القليلة الماضية ، تركز Google على الأبحاث في مجال توليد الصوت. يمكن أن تخلق النماذج التي طورتها صوتًا طبيعيًا عالي الجودة من خلال مجموعة متنوعة من طرق الإدخال مثل النص والتحكم في الإيقاع والأصوات المحددة. في الآونة الأخيرة ، تعاونت Google مع فرق داخلية متعددة لإطلاق ميزتين مهمتين: يمكن لمظهر صوتي محفوظات تحويل المستندات التي تم تحميلها إلى محادثات حية ؛
تعتمد هذه الاختراقات على العديد من نتائج الأبحاث السابقة من Google. من برامج الترميز الصوتية العصبية الصوتية ، إلى إطار نمذجة لغة الصوت Audiolm ، إلى عاصفة Soundst ، التي يمكن أن تولد أكثر من 30 ثانية من المحادثات ، تقوم Google باستمرار بالابتكار في مجال توليد الصوت. يستخدم أحدث اختراق تكنولوجي برامج ترميز صوتية أكثر كفاءة يمكنها ضغط الصوت بمعدل بت منخفض يبلغ 600 بت في الثانية مع الحفاظ على جودة الإخراج.
لتحقيق هذا الاختراق التكنولوجي ، طورت Google بنية محولات خاصة يمكنها معالجة التسلسل الهرمي للمعلومات بكفاءة. يتم تدريب النموذج مسبقًا على مئات الآلاف من بيانات الكلام ، ثم يتم ضبطها على مجموعة بيانات محادثة عالية الجودة تحتوي على ميزات طبيعية مثل توقف التوقف في المحادثات الحقيقية. لضمان الاستخدام المسؤول للتكنولوجيا ، قامت Google أيضًا بدمج تقنية Synthid لإضافة العلامات المائية إلى محتوى الصوت الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
في المستقبل ، تعمل Google على تحسين نعومة ونوعية الصوت للنموذج وإضافة عناصر تحكم أكثر تفصيلاً. إلى جانب سلسلة النماذج الجوزاء ، من المتوقع أن تلعب هذه التكنولوجيا دورًا مهمًا في تحسين الخبرة التعليمية وإمكانية الوصول إلى المحتوى ، مما يجعل المزيد من الاحتمالات للتكنولوجيا الصوتية.
إن أهمية هذه التكنولوجيا ليست فقط في تحسين أدائها ، ولكن أيضًا في فتحها لفصل جديد لتفاعل الإنسان والحاسوب. من خلال تحويل الابتكارات التكنولوجية المعقدة إلى طرق طبيعية وبديهية للتفاعل ، تضع Google الأساس للجيل القادم من التجارب الرقمية.
التفاصيل: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
تقنية توليد الصوت من Google ليست قفزة تكنولوجية فحسب ، بل هي أيضًا تقدم ثوري في تفاعل الإنسان والحاسوب ، مما يجلب إمكانيات غير محدودة إلى العالم الرقمي المستقبلي.