عند رؤية تنفيذي من Tacotron و DCTTS ، سألني الكثير من الناس "ما هو حجم مجموعة بيانات الكلام اللازمة لـ TTS العصبية؟" أو "هل يمكنك عمل نموذج TTS مع X Hour (S)/Minute (S) لبيانات التدريب؟" أنا أدرك تمامًا أهمية تلك الأسئلة. عندما تخطط لخدمة باستخدام TTS ، من غير المحتمل دائمًا الحصول على الكثير من عينات الكلام. أود أن أعطي إجابة. أنا حقا أفعل. لكن للأسف ليس لدي أي إجابة. الشيء الوحيد الذي أعرفه هو أنه يمكنني تدريب نموذج بنجاح مع خمس ساعات من عينات الكلام التي استخرجتها من كتاب Kate Winslet's AudioBook. لم أجرب بيانات أقل من ذلك. يمكنني تجربتها ، لكن لدي في الواقع فكرة أفضل. نظرًا لأن لدي نموذجًا لائقًا مدربًا على مجموعة بيانات الكلام LJ لعدة أيام ، فلماذا لا أستخدمه؟ بعد كل شيء ، لدينا جميعًا أصوات مختلفة ، لكن الطريقة التي نتحدث بها الإنجليزية ليست مختلفة تمامًا.
في اثنين أعلاه ، قمت بتدريب نماذج TTS باستخدام جميع عينات الكلام لمشاهيتي المفضلة ، نيك أوفيمان وكيت وينسلت ، من الصفر. هذه المرة ، أستخدم دقيقة واحدة فقط من عينات الكلام. فيما يلي العينات التي تم تصنيعها بعد 10 دقائق من التدريب الصحيح. هل تعتقد أنها تبدو مثلهم؟
بالإضافة إلى ذلك ، قمت بجمع 10 عينات من المشاهير العائليين المعاصرين من YouTube ، وتوليد صوتهم ، والتدريب على تلك العينة.
تحقق هنا لرؤية تفاصيل النموذج والرمز المصدر والنموذج المسبق الذي كان بمثابة بذرة.