Voyant mes implémentations de tacotron et de DCTT, de nombreuses personnes m'ont demandé "Quelle est la grande envergure de données de la parole pour les TTs neuronaux?" ou "Pouvez-vous faire un modèle TTS avec X heures / minute / minute de données de formation?" Je suis pleinement conscient de l'importance de ces questions. Lorsque vous planifiez un service à l'aide de TTS, il n'est pas toujours susceptible d'obtenir de nombreux échantillons de parole. Je voudrais donner une réponse. Je le fais vraiment. Mais malheureusement, je n'ai pas de réponse. La seule chose que je sais, c'est que je pourrais entraîner un modèle avec succès avec cinq heures d'échantillons de parole que j'ai extraits du livre audio de Kate Winslet. Je n'ai pas essayé moins de données que cela. Je pourrais l'essayer, mais j'ai une meilleure idée. Puisque j'ai un modèle décent formé avec l'ensemble de données LJ Speech pendant plusieurs jours, pourquoi ne l'utilise-je pas? Après tout, nous avons tous des voix différentes, mais la façon dont nous parlons anglais n'est pas totalement différente.
Dans les deux dépositions ci-dessus, j'ai formé des modèles TTS en utilisant tous les échantillons de discours de mes deux célébrités préférées, Nick Offerman et Kate Winslet, à partir de zéro. Cette fois, j'utilise seulement une minute des échantillons de discours. Voici les échantillons synthétisés après 10 minutes d'entraînement à réglage fin. Pensez-vous qu'ils leur ressemblent?
De plus, j'ai collecté 10 échantillons de discours de célébrités de famille modernes de YouTube et généré leur voix, une formation sur ces échantillons.
Vérifiez ici pour voir les détails du modèle, le code source et le modèle pré-entraîné qui a servi de graine.