TTS-Datenet-Prompts
[Weitgehend verlassen, sorry!]
Dieses Repository zielt darauf ab, eine Reihe von Sätzen für Personen zu sein, die ihre eigenen Stimmen klonen möchten (z. B. mit Tacotron 2).
Jeder Satz von 50 Zeilen zielt darauf ab, die folgenden Kriterien zu erfüllen:
- Jedes Phonem ist laut CMUDICT mindestens einmal dargestellt (unterschiedlich gestresste Versionen von Vokalen zählen als getrennte Phoneme; Konsonanten müssen zweimal vorhanden sein)
- Jedes Phonem ist ungefähr so häufig wie in regelmäßiger Sprache (zwischen 50% und 150% der in Moby Dick vorhandenen Frequenz, es sei denn, das Phonem ist nur 4 oder weniger Zeiten in der Charge vorhanden)
- Jede Linie ist bei der Spitze von ungefähr gleicher Länge (14-18 Silben + Nicht-Finale-Interpunktion)
- Wörter mit kontextabhängigen Aussprachen (außer sehr häufigen, wie
the ) werden zur einfachen Verarbeitung vermieden - Mindestens 10 Zeilen enthalten Kommas
- Mindestens 10 Zeilen bestehen aus mehreren kürzeren Sätzen (so dass die KI lernt, auf natürliche Weise zu pausieren)
Weitere Textdateien werden für Frage- und Ausrufexplosionsaufforderungen bereitgestellt, die denselben Regeln entsprechen. Sie wurden getrennt, weil einige Text-zu-Sprache-Architekturen schlecht mit der Endzeichen umgehen, die die Intonation des gesamten Satzes beeinflusst. Es kann vorteilhaft sein, diese zu verwenden, um ein separates Modell zu trainieren, wie von Talqu empfohlen und für einige Stimmen im Mekatron -Service (Defunct).
Dieses Repo verwendet die G2P-EN-Bibliothek, um die Phonemzählungen zu bestimmen, um die Phonetisierung von Uberduck zu entsprechen.
Andere gute Eingabeaufenthaltssätze
- (Mehrsprachiger!) Microsoft CustomVoice-Beispielskripte (nicht alle Eingabeaufforderungslisten sind gut gestaltet, z. B. die EN-US-Chat-Eingabeaufforderungen enthalten nur / ʒ / als Teil des Wortes "Indonesien"))
- Regenbogenpassage und Großvater Passage (phonetisch abgeschlossen)
- CMU Arctic -Eingabeaufforderung (phonetisch ausgeglichen, aber nur ein Satz pro Zeile)
- Mokka-Timit ("Entworfen für die wichtigsten angeschlossenen Sprachprozesse in Englisch (z. B. Assimilationen, schwache Formen ..)"))
- Zeitpunkt (ein Haufen meist randomer Sätze)
- (Mehrsprachiger!) Gemeinsame Sprachsätze (überhaupt nicht phonetisch ausgeglichen, auch ziemlich kurz)
- Ljspeech Transkript (Satzfragmente gibt es zuhauf, die ich persönlich als nützlich betrachte)
- Harvard Sätze (phonetisch ausgeglichen, aber nur ein Satz pro Linie und sie sind alle gleiche Länge)
- Die Liste der Vits-Fast-Fine-Tuning (sowohl Englisch als auch Chinesisch, aber sehr kurze Sätze und die Grammatik sind nicht perfekt)