ln -s /path/to/LJSpeech-1.1/wavs DUMMY يرجى الرجوع إلى XphoneBert لمزيد من المعلومات. يستخدمون text2phonemesequence لتحويل النص الخام إلى تسلسل phoneme.
تهيئة text2phonemesequence لكل لغة يتطلب رمز ISO 639-3 المقابل. تتوفر رموز ISO 639-3 للغات المدعومة هنا.
text2phonemesequence يأخذ تسلسلًا مكونًا من الكلمات كمدخل. وقد يقوم المستخدمون أيضًا بإجراء تطبيع النص على تسلسل تجزئة الكلمات قبل التغذية في text2phonemesequence .
ملاحظة: بالنسبة للغات مثل اللغة الصينية والكورية واليابانية (اللغات CJK) وبعض لغات جنوب شرق آسيا ، لا يتم فصل الكلمات عن طريق المسافات. يجب استخدام المميزات الخارجية قبل تغذية الكلمات في هذا النموذج. في هذه الحالة ، اكتب برنامج نصي لتطبيع وإدخال إدخالك قبل التغذية إلى text2phonemesequence (vie_preprocess.py في حالتي)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace مزيد من المعلومات حول config راجع configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base