Kantonesisch/chinesischer Text zu Sprache basierend auf der statistischen parametrischen Sprachsynthese unter Verwendung von Merlin Toolkit
Dieses Projekt wird von MTTs beeinflusst
Python: Python3.6
System: Linux (getestet auf Ubuntu16.04)
sudo apt-get install libatlas3-base
Führen Sie bash tools/install_mtts.sh
Oder die Datei selbst herunterladen
Demo laufen
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (absoluter Pfad oder relativer Pfad). Wenn Sie Ihr eigenes akustisches Modell trainiert haben, das nach Monats-Formen-Aligner -a your_acoustic_model.zip Model ausgebildet ist.txtFile Beispiel
A_01 这是一段文本
A_02 这是第二段文本
Beispiel für WAV_Directory (die Stichprobenrate sollte größer als 16 kHz)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path ausführen from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
Weitere Informationen finden Sie in der Quellcode, achten Sie jedoch auf die Alignment -Datei (SFS -Datei). Das Format ist endtime phone_type nicht start_time, phone_type (das sich von den Daten von Speech Ocean unterscheidet)
In diesem Projekt werden Montreal erzwungene Aligner verwendet, um eine erzwungene Ausrichtung durchzuführen. Wenn Sie eine bessere Ausrichtung erhalten möchten, verwenden Sie Ihre Daten, um ein Ausrichtungsmodell zu schulen
Sie können HTS -Label ohne Profismark erstellen. Wir gehen davon aus, dass das Wortsegment kleiner ist als das prosodische Wort (das in Code angepasst wird).