Al ver mis implementaciones de Tacotron y DCTTS, muchas personas me han preguntado "¿Cómo se necesita un gran conjunto de datos del habla para los TT neurales?" o "¿Puedes hacer un modelo TTS con x hora (s)/minuto (s) de datos de entrenamiento?" Soy plenamente consciente de la importancia de esas preguntas. Cuando planea un servicio que usa TTS, no siempre es probable que obtenga muchas muestras de voz. Me gustaría dar una respuesta. Realmente lo hago. Pero desafortunadamente no tengo respuesta. Lo único que sé es que podría entrenar un modelo con éxito con cinco horas de muestras de habla que extraí del audiolibro de Kate Winslet. No he probado menos datos que eso. Podría intentarlo, pero en realidad tengo una mejor idea. Dado que tengo un modelo decente entrenado con el conjunto de datos de discurso LJ durante varios días, ¿por qué no lo uso? Después de todo, todos tenemos voces diferentes, pero la forma en que hablamos inglés no es totalmente diferente.
En los dos repositorios anteriores, entrené modelos TTS usando todas las muestras de discurso de mis dos celebridades favoritas, Nick Offerman y Kate Winslet, desde cero. Esta vez, solo uso un minuto de muestras de discurso. Las siguientes son las muestras sintetizadas después de 10 minutos de entrenamiento de ajuste fino. ¿Crees que suenan como ellos?
Además, recolecté 10 muestras de discurso de celebridades familiares modernas de YouTube, y generé su voz, entrenando en esa muestra.
Consulte aquí para ver los detalles del modelo, el código fuente y el modelo previamente que sirvió como semilla.