ln -s /path/to/LJSpeech-1.1/wavs DUMMY Weitere Informationen finden Sie in XphoneBert. Sie verwenden text2phonemesequence zum Umwandeln von Rohtext in Phonem -Sequenz.
Initialisieren von text2phonemesequence für jede Sprache erfordert seinen entsprechenden ISO 639-3-Code. Die ISO 639-3-Codes unterstützter Sprachen finden Sie hier.
text2phonemesequence nimmt eine wortsegmentierte Sequenz als Eingabe. Und Benutzer können auch eine Textnormalisierung in der Wortsegmentierten durchführen, bevor sie in text2phonemesequence eingespeist werden.
Hinweis: Für Sprachen wie Chinesen, Koreanisch, Japanisch (CJK -Sprachen) und einige südostasiatische Sprachen werden Wörter nicht durch Räume getrennt. Ein externer Tokenisierer muss verwendet werden, bevor Wörter in dieses Modell eingefügt werden. Schreiben Sie in diesem Fall ein Skript, um Ihre Eingabe zu normalisieren und zu segmentieren, bevor Sie an text2phonemesequence füttern (VIE_PREPROCESS.py ist in meinem Fall).
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace Weitere Informationen zur Konfiguration finden Sie in configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base