ln -s /path/to/LJSpeech-1.1/wavs DUMMY Consulte o Xphonebert para obter mais informações. Eles usando text2phonemesequence para converter texto bruto em sequência de fonemas.
A inicialização text2phonemesequence para cada idioma requer o código ISO 639-3 correspondente. Os códigos ISO 639-3 de idiomas suportados estão disponíveis aqui.
text2phonemesequence toma uma sequência segmentada por palavras como entrada. E os usuários também podem executar a normalização do texto na sequência segmentada por palavras antes de se alimentar em text2phonemesequence .
Nota: Para idiomas como chinês, coreano, japonês (idiomas CJK) e algumas línguas do sudeste asiático, as palavras não são separadas por espaços. Um tokenizador externo deve ser usado antes de alimentar as palavras neste modelo. Nesse caso, escreva um script para normalizar e segmentar sua entrada antes de se alimentar para text2phonemesequence (vie_preprocess.py está no meu caso)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace Mais informações sobre Config Consulte configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base