XphoneBert_Vits2
1.0.0
ln -s /path/to/LJSpeech-1.1/wavs DUMMY有关更多信息,请参考Xphonebert。他们使用text2phonemesequence将原始文本转换为音素序列。
初始化每种语言的text2phonemesequence需要其相应的ISO 639-3代码。 ISO 639-3支持的语言代码在这里可用。
text2phonemesequence将单词段的序列作为输入。用户还可以在馈入text2phonemesequence之前对单词分段序列进行文本归一化。
注意:对于中文,韩语,日语(CJK语言)和一些东南亚语言等语言,单词不被空间分开。在将单词喂入此模型之前,必须使用外部引物。在这种情况下,写一个脚本以使您的输入归一化和分割您的输入,然后再提交给text2phonemesequence (在我的情况下是vie_preprocess.py)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace有关配置的更多信息,请参考configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base