TTS-Dataset-PROMPTS
[Largement abandonné, désolé!]
Ce référentiel vise à être un ensemble décent de phrases pour les personnes qui cherchent à cloner leurs propres voix (par exemple en utilisant Tacotron 2).
Chaque ensemble de 50 lignes vise à remplir les critères suivants:
- Chaque phonème est représenté au moins une fois, selon CMudict (les versions stressées différemment des voyelles considèrent comme des phonèmes distincts; les consonnes doivent être présentes deux fois)
- Chaque phonème est à peu près aussi fréquent que dans la parole régulière (entre 50% et 150% la fréquence présente dans Moby Dick, à moins que le phonème ne soit présent que 4 fois ou moins dans le lot)
- Chaque ligne est de longueur à peu près égale lorsqu'elle est parlée (14-18 syllabes + ponctuation non finale)
- Les mots avec des prononciations dépendantes du contexte (sauf les mots très courants, comme
the ) sont évités pour faciliter le traitement - Au moins 10 lignes contiennent des virgules
- Au moins 10 lignes sont composées de plusieurs phrases plus courtes (afin que l'IA apprenne à s'arrêter naturellement)
Des fichiers texte supplémentaires seront fournis pour des invites de question et d'exclamation, en suivant les mêmes règles. Ils ont été séparés parce que certaines architectures de texte vocale traitent mal de la terminaison de ponctuation qui affecte l'intonation de toute la phrase. Il peut être avantageux de les utiliser pour former un modèle séparé, comme recommandé par Talqu et comme fait pour certaines voix dans le service Mekatron (défunt).
Ce repo utilise la bibliothèque G2P-en pour déterminer le nombre de phonèmes, afin de correspondre à la phonétisation d'Uberduck.
Autres bons ensembles d'invites
- (multilingue!) Microsoft CustomVoice Exemple Scripts (toutes les listes d'invites ne sont pas bien conçues, par exemple, les invites de chat en-américaines n'incluent / ʒ / en tant que partie du mot "Indonésie")
- Passage arc-en-ciel et passage du grand-père (phonétiquement complet)
- Liste des invites CMU Arctic (équilibrée phonétiquement, mais une seule phrase par ligne)
- Mocha-timite ("Conçu pour inclure les principaux processus de parole connectés en anglais (par exemple, les assimilations, les formes faibles ..)")
- Timit (un tas de phrases principalement aléatoires)
- (multilingue!) Des phrases vocales communes (pas du tout équilibrées phonétiquement, également assez courtes)
- Transcription LJSpeech (les fragments de phrases abondent, que je considère personnellement comme utile)
- Phrases de Harvard (équilibré phonétiquement, mais une seule phrase par ligne et ils sont tous à la durée égale)
- La liste des vits-fine-fine (à la fois en anglais et en chinois, mais des phrases très courtes et la grammaire n'est pas parfaite)