MTTS Download - MTTS Quellcode Download

MTTS

AI-Quellcode

1.0.0

Herunterladen

Dieses Projekt wurde gestoppt und ist ziemlich alt

empfehlen:

https://github.com/paddlepaddle/paddlespeech/tree/develop/paddlespeech/t2s/frontend
https://github.com/thuhcsi/crystal

Willkommen bei Join

Sprachsynthesekommunikation QQ Group: 882726654

Eine Demo von MTTS Mandarin/Chinesischen Text zum Sprachfrontende

Mandarin/chinesischer Text zu Sprache basierend auf der statistischen Parameter -Sprachsynthese unter Verwendung von Merlin Toolkit

Dies ist nur eine Demo am vorderen Ende der Aussprachesynthese. Es liefert keine Funktionen zur Regularisierung und Rhythmus -Vorhersage. Verwenden Sie Pypinyin, um Text in Pinyin zu konvertieren, und verwenden Sie das Stottern zum Partizip. Die Genauigkeit dieser beiden ist nicht so gut wie die kommerzielle Ebene.

Für andere Sprachsyntheseprojekte ist das Portal End-to-End eine gute Richtung und die Natürlichkeit ist besser als die von Merlin.

Dies ist nur eine Demo des Mandarin -Frontends, bei der einige Teile wie "Textnormalisierung" und "Prosody Prediction" fehlen, und das Telefonsatz && Frage, das dieses Projekt verwendet, wird noch nicht vollständig getestet.

Eine grobe Dokumentation: Eine in Mandarin geschriebene Dokumentation des Entwurfs

Daten

Es gibt keinen Open-Source-Mandarin-Sprach-Synthese-Datensatz im Internet. Dieser Proj verwendete den THCHS30-Datensatz, um die Sprachsynthese zu demostieren

AKTUALISIEREN

Open-Source-Mandarin-Sprach-Synthesedaten des Datenbankerunternehmens, Open Source Chinese Speech Synthesis-Daten dank der Biaobei-Firma

【Daten herunterladen】 https://weixinxcxdb.oss-cn-beeijing.aliyuncs.com/gwyinpinku/bznsyp.rar 【Datenbeschreibung】 http://www.data-baker.com/open_source.html

Erzeugte Proben

Hören Sie sich https://jackiexiao.github.io/mtts/ an

Wie man sich reproduzieren

Zunächst benötigen Sie Daten enthalten WAV und TXT (Prosody Mark ist optional)
Zweitens generieren Sie HTS -Etikett mit diesem Projekt
Verwenden Sie Merlin/EGS/Mandarin_voice, um Mandarin -Stimme zu trainieren und zu generieren

Kontextbezogene Annotation und Fragensatz

Kontextbezogene Annotation
Frage Set
Regeln zum Entwerfen einer Frage -Set -Designregeln

Installieren

Python: Python3.6
System: Linux (getestet auf Ubuntu16.04)

 pip install jieba pypinyin
sudo apt-get install libatlas3-base

Führen Sie bash tools/install_mtts.sh
Oder die Datei selbst herunterladen

Laden Sie Montreal Forced-Aligner und Unzipp auf Verzeichniswerkzeuge herunter/
Laden Sie Acoustic_Model thchs30.zip herunter und kopieren Sie in Directory Misc/

Demo laufen

 bash run_demo.sh

Verwendung

1. Generieren Sie HTS -Etikett nach WAV und Text

Verwendung: Führen Sie python src/mtts.py txtfile wav_directory_path output_directory_path (absoluter Pfad oder relativer Pfad). Wenn Sie Ihr eigenes akustisches Modell trainiert haben, das nach Monats-Formen-Aligner -a your_acoustic_model.zip Model ausgebildet ist.
Achtung: Derzeit unterstütze TXT nur den chinesischen Charakter, sondern sollte keine Arabien -Nummer oder ein englisches Alphabet haben (keine arabischen Ziffern und englischen Zeichen enthalten).

txtFile Beispiel

 A_01 这是一段文本
A_02 这是第二段文本

Beispiel für WAV_Directory (die Stichprobenrate sollte größer als 16 kHz)

 A_01.wav  
A_02.wav

2. Generieren Sie die HTS -Etikett nach Text mit oder ohne Ausrichtungsdatei

Verwendung: python src/mandarin_frontend.py txtfile output_directory_path ausführen
oder mandarin_frontend importieren

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
            sfsfile='example_file/example.sfs')

Weitere Informationen finden Sie in der Quellcode, achten Sie jedoch auf die Alignment -Datei (SFS -Datei). Das Format ist endtime phone_type nicht start_time, phone_type (das sich von den Daten von Speech Ocean unterscheidet)

3.. Erzwungene Ausrichtung

In diesem Projekt werden Montreal erzwungene Aligner verwendet, um eine erzwungene Ausrichtung durchzuführen. Wenn Sie eine bessere Ausrichtung erhalten möchten, verwenden Sie Ihre Daten, um ein Ausrichtungsmodell zu schulen

Wir haben das akustische Modell mit dem THCHS30 -Datensatz ausgebildet, siehe misc/thchs30.zip . Wenn Sie einen größeren Datensatz als THCHS30 verwenden, erhalten Sie möglicherweise eine bessere Ausrichtung.
Wenn Sie MFAs (Montreal erzwungen) vorgebildetem Mandarinmodell verwenden möchten, ist dies das Wörterbuch, das Sie Mandarin-für-Montreal-Erzieher-Aligner-Pre-ausgebildetes Modell benötigen.

Prosody Mark

Sie können HTS -Label ohne Profismark erstellen. Wir gehen davon aus, dass das Wortsegment kleiner ist als das prosodische Wort (das in Code angepasst wird).

"#0", "#1", "#2", "#3" und "#4" sind die Prosody -Kennzeichnungssymbole.

#0 steht für Word -Segment
#1 steht für prosodisches Wort
#2 steht für stressiges Wort (tatsächlich in diesem Projekt haben wir es als #1 regelt)
#3 steht für den prosodischen Satz
#4 steht für den internationalen Satz