XphoneBert_Vits2
1.0.0
ln -s /path/to/LJSpeech-1.1/wavs DUMMY 자세한 내용은 Xphonebert를 참조하십시오. 그들은 원시 텍스트를 음소 시퀀스로 변환하기 위해 text2phonemesequence 사용합니다.
각 언어에 대한 text2phonemesequence 초기화에는 해당 ISO 639-3 코드가 필요합니다. 지원되는 언어의 ISO 639-3 코드는 여기에서 제공됩니다.
text2phonemesequence 단어 분할 된 시퀀스를 입력으로 사용합니다. 또한 사용자는 text2phonemesequence 에 공급하기 전에 Word-segmented 시퀀스에서 텍스트 정규화를 수행 할 수 있습니다.
참고 : 중국어, 한국어, 일본어 (CJK 언어) 및 일부 동남아시아 언어와 같은 언어의 경우 단어는 공간으로 분리되지 않습니다. 이 모델에 단어를 공급하기 전에 외부 토 케이너를 사용해야합니다. 이 경우 text2phonemesequence 에 공급하기 전에 정규화하고 입력을 세분화하기 위해 스크립트를 작성하십시오 (VIE_PREPROCESS.PY는 내 경우).
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace 구성에 대한 자세한 정보는 configs/config.json 참조하십시오
# LJ Speech
python train.py -c configs/config.json -m ljs_base