XphoneBert_Vits2
1.0.0
ln -s /path/to/LJSpeech-1.1/wavs DUMMY有關更多信息,請參考Xphonebert。他們使用text2phonemesequence將原始文本轉換為音素序列。
初始化每種語言的text2phonemesequence需要其相應的ISO 639-3代碼。 ISO 639-3支持的語言代碼在這裡可用。
text2phonemesequence將單詞段的序列作為輸入。用戶還可以在饋入text2phonemesequence之前對單詞分段序列進行文本歸一化。
注意:對於中文,韓語,日語(CJK語言)和一些東南亞語言等語言,單詞不被空間分開。在將單詞餵入此模型之前,必須使用外部引物。在這種情況下,寫一個腳本以使您的輸入歸一化和分割您的輸入,然後再提交給text2phonemesequence (在我的情況下是vie_preprocess.py)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace有關配置的更多信息,請參考configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base