ln -s /path/to/LJSpeech-1.1/wavs DUMMY Veuillez vous référer à Xphonebert pour plus d'informations. Ils utilisent text2phonemesequence pour convertir le texte brut en séquence de phonèmes.
L'initialisation de text2phonemesequence pour chaque langue nécessite son code ISO 639-3 correspondant. Les codes ISO 639-3 des langues prises en charge sont disponibles ici.
text2phonemesequence prend une séquence segmentée par mot en entrée. Et les utilisateurs peuvent également effectuer une normalisation de texte sur la séquence segmentée de mot avant de se nourrir dans text2phonemesequence .
Remarque: Pour les langues telles que chinois, coréenne, japonaise (langues CJK) et certaines langues d'Asie du Sud-Est, les mots ne sont pas séparés par des espaces. Un jeton externe doit être utilisé avant de nourrir les mots dans ce modèle. Dans ce cas, écrivez un script pour normaliser et segmenter votre entrée avant de vous nourrir à text2phonemesequence (VIE_PREPROCESS.py est dans mon cas)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace Plus d'informations sur la configuration se réfèrent à configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base