المؤلفون: Hyunjae Cho ، Wonbin Jung ، Junhyeok Lee ، Sang Hoon WooMindslab Inc.
الخلاصة: في هذه الورقة ، نقدم tts عاقل ، نموذج TTS متعدد اللغات مستقر وطبيعي. من خلال صعوبة الحصول على مجموعة متعددة اللغات للمتحدث المعطى ، لا مفر من تدريب نموذج TTS متعدد اللغات مع كوربورا أحادية اللغة. نقدم فقدان تنظيم السماعات الذي يحسن الكلام الطبيعي أثناء التوليف عبر اللغات وكذلك التدريب العدائي للمجال ، والذي يتم تطبيقه في نماذج TTS الأخرى متعددة اللغات. علاوة على ذلك ، من خلال إضافة فقدان تنظيم السماعات ، فإن استبدال مكبر الصوت بتضمين المتجه صفريًا في المدة يثبت الاستنتاج عبر اللغات. مع هذا الاستبدال ، يولد نموذجنا خطب مع إيقاع معتدل بغض النظر عن مكبر الصوت في التوليف عبر اللغات. في تقييم MOS ، يحقق Sane-TTS درجة الطبيعية أعلى من 3.80 سواء في التوليف عبر اللغات أو داخل اللغة ، حيث تكون درجة الحقيقة الأرضية 3.99. أيضا ، يحافظ Sane-TTS على تشابه المتحدث بالقرب من حقيقة الحقيقة الأرضية حتى في الاستدلال عبر اللغات. عينات الصوت متوفرة على صفحة الويب الخاصة بنا.
| إجراء التدريب | إجراء الاستنتاج |
|---|---|
![]() | ![]() |