ln -s /path/to/LJSpeech-1.1/wavs DUMMY Пожалуйста, обратитесь к Xphonebert для получения дополнительной информации. Они используют text2phonemesequence для преобразования необработанного текста в последовательность фонем.
Инициализация text2phonemesequence для каждого языка требует соответствующего кода ISO 639-3. Здесь доступны коды поддерживаемых языков ISO 639-3.
text2phonemesequence принимает последовательность, сегментированную Word в качестве ввода. И пользователи могут также выполнять нормализацию текста в последовательности, сегментированной словом, перед тем, как питаться в text2phonemesequence .
Примечание. Для таких языков, как китайский, корейский, японский (языки CJK) и некоторые языки Юго -Восточной Азии, слова не разделяются пространствами. Перед тем, как подавать слова в эту модель, должны использоваться внешние токенизаторы. В этом случае напишите сценарий, чтобы нормализовать и сегментировать свой ввод перед подачей на text2phonemesequence (vie_preprocess.py в моем случае)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace Больше информации о конфигурации см. configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base