أصدرت Bilibili مؤخرًا نموذجًا نصًا إلى كلام يسمى indextts. يعتمد هذا النموذج على XTTS وتكنولوجيا السلحفاة ويعتمد بنية على طراز GPT. عند معالجة النص الصيني ، يحتوي هذا النظام المبتكر على وظيفة نطق الأحرف الصينية الفريدة من نوع Pinyin ، ويمكن أن تتحكم بدقة في توقف في أي موقف من خلال علامات الترقيم. إن إدخال هذه التكنولوجيا يجعل تأثير النص على الكلام أكثر طبيعية وسلسة ، مما يؤدي إلى تحسين تجربة المستخدم بشكل كبير وجذب اهتمام واسع النطاق.
بعد عشرات الآلاف من الساعات من تدريب البيانات ، حقق نظام IndexTTS قيادة الصناعة في الأداء ، متجاوزة أنظمة TTS الشعبية الحالية ، مثل XTTS و Cosyvoice2 ومكبوت الأسماك و F5-TTS. تم تحسين وحدات متعددة من النظام بعمق ، خاصة مع تحسينات كبيرة في تمثيل الميزات الشرطية للسماعات وجودة الصوت. من خلال إدخال النمذجة الهجينة ، يمكن لـ IndexTTs تصحيح الأحرف الصينية التي تسيء قراءة الأشياء ، مما يؤدي إلى تحسين تجربة المستخدم.
يتبنى النموذج أحدث تشفير مشروط وفك ترميز الصوت القائم على BigVgan2 ، والذي لا يحسن فقط استقرار التدريب ، ولكنه يعزز أيضًا تشابه ونوعية الصوت. قال فريق البحث والتطوير إنهم قدموا أوراقًا ذات صلة على Arxiv ويخططون لإصدار معلمات النموذج والرمز في الأسابيع القليلة المقبلة. بالإضافة إلى ذلك ، توفر INDEXTTS أيضًا مجموعة متنوعة من مجموعات الاختبارات ، بما في ذلك المفردات متعددة المفردات ومجموعات المراجعة الذاتية والموضوعية للتحليل المتعمق من قبل الباحثين.
تم أداء الفهرسة بشكل جيد في مراجعات متعددة ، خاصة فيما يتعلق بمعدل خطأ الكلمات (WER) وتشابه السماعة (SS) ، والتي تفوقت على العديد من نماذج الأقران. على سبيل المثال ، في اختبارات الماندرين ، كان معدل خطأ كلمة INDEXTTS 1.3 ٪ فقط ، وهو أقل بكثير من أداء النماذج الأخرى ، مما يدل على دقته القوية والاستقرار. في الوقت نفسه ، في تقييم جودة الصوت ، بلغت درجة MOS 'INDEXTTS أيضًا 4.01 ، مما يدل على جودة صوتها الممتازة.
مع التقدم المستمر للتكنولوجيا وتوسيع سيناريوهات التطبيق ، يمثل إصدار الفهرس التقدم في تقنية النص إلى كلام إلى مستوى أعلى. لمزيد من المعلومات حول النظام ، يمكن للمستخدمين الاتصال بالفريق ذي الصلة لتجربة المستخدم التفصيلية والدعم الفني.
عنوان المشروع: https://github.com/index-tts/index-tts