العينات متوفرة في صفحات جيثب !!!
العنوان: E3-its: TTS العاطفية من طرف إلى طرف مع نقل نمط المتحدث عبر الكلام (رابط الورق)
الخلاصة: نظرًا لأن نماذج TTS العاطفية السابقة تعتمد على خط أنابيب على مرحلتين أو ملصقات إضافية ، فإن عملية التدريب الخاصة بها معقدة وتتطلب تكلفة وضع علامات عالية. للتعامل مع هذه المشكلة ، تعرض هذه الورقة E3-its ، وهو نموذج TTS العاطفي الشامل الذي يعالج قيود النماذج الحالية. تقوم E3-Vits بتجميع خطب عالية الجودة للحالات المتعددة ، وتدعم كل من توليف الكلام العاطفي القائم على الوصف النصي والوصف النصي ، ويمكّن من نقل العاطفة المتقاطعة مع مجموعة بيانات مفككة. لتنفيذ حركات E3 ، نقترح اضطراب على غرار الدُفعات ، والذي يولد عينات صوتية ذات مشاعر غير متزايدة لزيادة جودة نقل العاطفة المتقاطعة. تظهر النتائج أن E3-Vits تتفوق على النموذج الأساسي من حيث الطبيعية ، والمتكلم والتشابه العاطفي ، وسرعة الاستدلال.