يمثل مشروع FunaUdiollm الذي تم إطلاقه مؤخرًا Alibaba Tongyi Labs حقبة جديدة تمامًا من تقنية توليد الصوت. أعاد هذا المشروع المفتوح المصدر تعريف إمكانية التفاعل الصوتي للحاسوب البشري من خلال طرازين أساسيين له Sensevoice و Cosyvoice. لا يوضح Funaudiollm تراكم علي بابا العميق في مجال الذكاء الاصطناعي فحسب ، بل يشير أيضًا إلى اتجاه التنمية المستقبلية لتكنولوجيا الصوت الذكية.
كمحرك توليد الصوت في المشروع ، فإن الاختراقات التكنولوجية لـ Cosyvoice مثيرة للإعجاب. بعد 150،000 ساعة من التدريب على البيانات متعددة اللغات ، لم يحقق النموذج جيلًا سلسًا من خمس لغات فقط ، أي الصينية والإنجليزية واليابانية والعانغدونغ والكورية ، ولكنه وصل أيضًا إلى مستوى جديد في محاكاة النغمة والتحكم العاطفي. تتيح إمكانية توليد الصوت الفريدة صفر العينة النموذج للتكيف بسرعة مع صوت المتحدث الجديد ، مما يوفر إمكانيات غير محدودة للخدمات الصوتية الشخصية. خاصة في تخليق الصوت عبر اللغة ، أظهر Cosyvoice القدرة على التكيف مذهلة ، مما يمهد الطريق لتطبيقات التفاعل الصوتي العالمي.
يمثل Sensevoice معيارًا جديدًا في تكنولوجيا التعرف على الكلام. بعد 400000 ساعة من التدريب على البيانات متعددة اللغات ، تتجاوز دقة الاعتراف بشكل كبير نموذج الهمس الحالي بأكثر من 50 لغة. في الاعتراف الصيني والكانتوني ، زاد معدل الدقة بأكثر من 50 ٪ ، مما حقق اختراقًا ثوريًا للتطبيق الصوتي الذكي في السوق الصينية. تجدر الإشارة إلى أن Sensevoice يدمج وظائف التعرف على العاطفة واكتشاف الأحداث الصوتية ، مما يسمح للجهاز ليس فقط بفهم اللغة ، ولكن أيضًا لفهم العواطف ومعلومات المشهد الخاصة بالمتحدث.

لدى FunaUdiollm سيناريوهات تطبيق واسعة للغاية ، من الترجمة في الوقت الفعلي متعدد اللغات إلى المحادثات الصوتية العاطفية ، من المواد الصوتية التفاعلية إلى الكتب الصوتية الذكية ، كل حقل يحتوي على قيمة تجارية ضخمة. من خلال الجمع بين الاعتراف الدقيق لـ Sensevoice ، والفهم القوي لـ LLMs والتوليد الطبيعي من Cosyvoice ، يحقق المشروع تجربة تفاعلية صوتية حقيقية. ستؤدي هذه القدرة على ترجمة صوت إلى كلام سلس إلى إحداث ثورة في طريقة التواصل عبر اللغة وإحضار إمكانيات جديدة للتبادلات التجارية والثقافية المعولمة.
فيما يتعلق بالتنفيذ الفني ، يتبنى Cosyvoice تقنية ترميز كمية الكلام المتقدمة لضمان طبيعية وطلاقة الكلام الناتج. يدمج Sensevoice وظائف مثل التعرف التلقائي على الكلام ، والتعرف على اللغة ، والتعرف على العاطفة ، والكشف عن الأحداث الصوتية في نموذج موحد من خلال إطار تعليمي متعدد المهام ، مما يحسن بشكل كبير من كفاءة ودقة النظام. لا تقلل هذه البنية الفنية من تكاليف الحوسبة فحسب ، بل توفر أيضًا أساسًا جيدًا لتحسين النماذج اللاحقة والتوسع الوظيفي.
الموقف المفتوح لأبابا تونسيي المفتوح أمر يستحق الثناء. لم يصدر فريق المشروع النماذج والرمز الكامل على ModelsCope و Huggingface فحسب ، بل قدم أيضًا تدريبًا مفصلاً وأدلة تفصيلية وصقل على Github. ستعمل روح المصدر المفتوح هذه على تعزيز البحث والتطبيق في مجال التكنولوجيا الصوتية بشكل كبير وله تأثير إيجابي على الصناعة بأكملها.
عنوان المشروع: https://github.com/funaudiollm