CTTS Download - CTTS Quellcode Download

CTTS

AI-Quellcode

1.0.0

Herunterladen

Kantonesisches TTS Frontend

Kantonesisch/chinesischer Text zu Sprache basierend auf der statistischen parametrischen Sprachsynthese unter Verwendung von Merlin Toolkit

Dieses Projekt wird von MTTs beeinflusst

Wie man sich reproduzieren

Erstens benötigen Sie Daten enthalten WAV und TXT (Prosody Mark ist optional)
Zweitens generieren Sie HTS -Etikett mit diesem Projekt
Verwenden Sie Merlin/EGS/Cantonese_voice, um kantonesische Stimme zu trainieren und zu generieren

Kontextbezogene Annotation und Fragensatz

Kontextbezogene Annotation
Frage Set
Regeln, um einen Fragesatz zu entwerfen

Installieren

Python: Python3.6
System: Linux (getestet auf Ubuntu16.04)

 sudo apt-get install libatlas3-base

Führen Sie bash tools/install_mtts.sh
Oder die Datei selbst herunterladen

Laden Sie Montreal Forced-Aligner und Unzipp auf Verzeichniswerkzeuge herunter/

Demo laufen

 bash run_demo.sh

Verwendung

1. Generieren Sie HTS -Etikett nach WAV und Text

Verwendung: Führen Sie python src/mtts.py txtfile wav_directory_path output_directory_path (absoluter Pfad oder relativer Pfad). Wenn Sie Ihr eigenes akustisches Modell trainiert haben, das nach Monats-Formen-Aligner -a your_acoustic_model.zip Model ausgebildet ist.
Achtung: Derzeit unterstütze TXT nur den chinesischen Charakter, sondern sollte keine Arabien -Nummer oder ein englisches Alphabet haben

txtFile Beispiel

 A_01 这是一段文本
A_02 这是第二段文本

Beispiel für WAV_Directory (die Stichprobenrate sollte größer als 16 kHz)

 A_01.wav  
A_02.wav

2. Generieren Sie die HTS -Etikett nach Text mit oder ohne Ausrichtungsdatei

Verwendung: python src/mandarin_frontend.py txtfile output_directory_path ausführen
oder mandarin_frontend importieren

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

Weitere Informationen finden Sie in der Quellcode, achten Sie jedoch auf die Alignment -Datei (SFS -Datei). Das Format ist endtime phone_type nicht start_time, phone_type (das sich von den Daten von Speech Ocean unterscheidet)

3.. Erzwungene Ausrichtung

In diesem Projekt werden Montreal erzwungene Aligner verwendet, um eine erzwungene Ausrichtung durchzuführen. Wenn Sie eine bessere Ausrichtung erhalten möchten, verwenden Sie Ihre Daten, um ein Ausrichtungsmodell zu schulen

Wir haben das akustische Modell auf unserem Datensatz trainiert.

Prosody Mark

Sie können HTS -Label ohne Profismark erstellen. Wir gehen davon aus, dass das Wortsegment kleiner ist als das prosodische Wort (das in Code angepasst wird).