ln -s /path/to/LJSpeech-1.1/wavs DUMMY Consulte XphoneBert para obtener más información. Ellos utilizan text2phonemesequence para convertir el texto sin procesar en secuencia de fonema.
La inicialización de text2phonemesequence para cada idioma requiere su código ISO 639-3 correspondiente. Los códigos ISO 639-3 de los idiomas compatibles están disponibles aquí.
text2phonemesequence toma una secuencia segmentaria de palabras como entrada. Y los usuarios también pueden realizar la normalización de texto en la secuencia segmentaria de palabras antes de alimentar text2phonemesequence .
Nota: Para idiomas como chino, coreano, japonés (idiomas CJK) y algunos idiomas del sudeste asiático, las palabras no están separadas por espacios. Se deben usar un tokenizadores externos antes de alimentar las palabras en este modelo. En este caso, escriba un script para normalizar y segmentar su entrada antes de alimentarse a text2phonemesequence (VIE_PREPROCESS.py está en mi caso)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace Más información sobre config Consulte configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base