تنزيل speaker_adapted_tts - تنزيل رمز المصدر speaker_adapted

speaker_adapted_tts

كود الذكاء الاصطناعي

1.0.0

تنزيل

صنع نموذج TTS مع دقيقة واحدة من عينات الكلام في غضون 10 دقائق

عند رؤية تنفيذي من Tacotron و DCTTS ، سألني الكثير من الناس "ما هو حجم مجموعة بيانات الكلام اللازمة لـ TTS العصبية؟" أو "هل يمكنك عمل نموذج TTS مع X Hour (S)/Minute (S) لبيانات التدريب؟" أنا أدرك تمامًا أهمية تلك الأسئلة. عندما تخطط لخدمة باستخدام TTS ، من غير المحتمل دائمًا الحصول على الكثير من عينات الكلام. أود أن أعطي إجابة. أنا حقا أفعل. لكن للأسف ليس لدي أي إجابة. الشيء الوحيد الذي أعرفه هو أنه يمكنني تدريب نموذج بنجاح مع خمس ساعات من عينات الكلام التي استخرجتها من كتاب Kate Winslet's AudioBook. لم أجرب بيانات أقل من ذلك. يمكنني تجربتها ، لكن لدي في الواقع فكرة أفضل. نظرًا لأن لدي نموذجًا لائقًا مدربًا على مجموعة بيانات الكلام LJ لعدة أيام ، فلماذا لا أستخدمه؟ بعد كل شيء ، لدينا جميعًا أصوات مختلفة ، لكن الطريقة التي نتحدث بها الإنجليزية ليست مختلفة تمامًا.

في اثنين أعلاه ، قمت بتدريب نماذج TTS باستخدام جميع عينات الكلام لمشاهيتي المفضلة ، نيك أوفيمان وكيت وينسلت ، من الصفر. هذه المرة ، أستخدم دقيقة واحدة فقط من عينات الكلام. فيما يلي العينات التي تم تصنيعها بعد 10 دقائق من التدريب الصحيح. هل تعتقد أنها تبدو مثلهم؟