empfehlen:
Willkommen bei Join
Mandarin/chinesischer Text zu Sprache basierend auf der statistischen Parameter -Sprachsynthese unter Verwendung von Merlin Toolkit
Dies ist nur eine Demo am vorderen Ende der Aussprachesynthese. Es liefert keine Funktionen zur Regularisierung und Rhythmus -Vorhersage. Verwenden Sie Pypinyin, um Text in Pinyin zu konvertieren, und verwenden Sie das Stottern zum Partizip. Die Genauigkeit dieser beiden ist nicht so gut wie die kommerzielle Ebene.
Für andere Sprachsyntheseprojekte ist das Portal End-to-End eine gute Richtung und die Natürlichkeit ist besser als die von Merlin.
Dies ist nur eine Demo des Mandarin -Frontends, bei der einige Teile wie "Textnormalisierung" und "Prosody Prediction" fehlen, und das Telefonsatz && Frage, das dieses Projekt verwendet, wird noch nicht vollständig getestet.
Eine grobe Dokumentation: Eine in Mandarin geschriebene Dokumentation des Entwurfs
Es gibt keinen Open-Source-Mandarin-Sprach-Synthese-Datensatz im Internet. Dieser Proj verwendete den THCHS30-Datensatz, um die Sprachsynthese zu demostieren
AKTUALISIEREN
Open-Source-Mandarin-Sprach-Synthesedaten des Datenbankerunternehmens, Open Source Chinese Speech Synthesis-Daten dank der Biaobei-Firma
【Daten herunterladen】 https://weixinxcxdb.oss-cn-beeijing.aliyuncs.com/gwyinpinku/bznsyp.rar 【Datenbeschreibung】 http://www.data-baker.com/open_source.html
Hören Sie sich https://jackiexiao.github.io/mtts/ an
Python: Python3.6
System: Linux (getestet auf Ubuntu16.04)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
Führen Sie bash tools/install_mtts.sh
Oder die Datei selbst herunterladen
Demo laufen
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (absoluter Pfad oder relativer Pfad). Wenn Sie Ihr eigenes akustisches Modell trainiert haben, das nach Monats-Formen-Aligner -a your_acoustic_model.zip Model ausgebildet ist.txtFile Beispiel
A_01 这是一段文本
A_02 这是第二段文本
Beispiel für WAV_Directory (die Stichprobenrate sollte größer als 16 kHz)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path ausführen from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
Weitere Informationen finden Sie in der Quellcode, achten Sie jedoch auf die Alignment -Datei (SFS -Datei). Das Format ist endtime phone_type nicht start_time, phone_type (das sich von den Daten von Speech Ocean unterscheidet)
In diesem Projekt werden Montreal erzwungene Aligner verwendet, um eine erzwungene Ausrichtung durchzuführen. Wenn Sie eine bessere Ausrichtung erhalten möchten, verwenden Sie Ihre Daten, um ein Ausrichtungsmodell zu schulen
misc/thchs30.zip . Wenn Sie einen größeren Datensatz als THCHS30 verwenden, erhalten Sie möglicherweise eine bessere Ausrichtung.Sie können HTS -Label ohne Profismark erstellen. Wir gehen davon aus, dass das Wortsegment kleiner ist als das prosodische Wort (das in Code angepasst wird).
"#0", "#1", "#2", "#3" und "#4" sind die Prosody -Kennzeichnungssymbole.