ln -s /path/to/LJSpeech-1.1/wavs DUMMY โปรดดูที่ Xphonebert สำหรับข้อมูลเพิ่มเติม พวกเขาใช้ text2phonemesequence สำหรับการแปลงข้อความดิบเป็นลำดับฟอนิม
การเริ่มต้น text2phonemesequence สำหรับแต่ละภาษาต้องใช้รหัส ISO 639-3 ที่สอดคล้องกัน รหัสภาษาที่รองรับ ISO 639-3 มีอยู่ที่นี่
text2phonemesequence ใช้ลำดับการแบ่งคำเป็นอินพุต และผู้ใช้อาจทำการทำให้ข้อความเป็นมาตรฐานในลำดับการแบ่งคำก่อนที่จะป้อนเข้าสู่ text2phonemesequence
หมายเหตุ: สำหรับภาษาต่าง ๆ เช่นภาษาจีนเกาหลีญี่ปุ่น (ภาษา CJK) และภาษาเอเชียตะวันออกเฉียงใต้บางภาษาคำไม่ได้ถูกคั่นด้วยช่องว่าง ต้องใช้โทเคนิเซอร์ภายนอกก่อนที่จะให้อาหารคำในรุ่นนี้ ในกรณีนี้เขียนสคริปต์เพื่อทำให้เป็นมาตรฐานและแบ่งส่วนข้อมูลของคุณก่อนที่จะให้อาหารไปที่ text2phonemesequence (vie_preprocess.py อยู่ในกรณีของฉัน)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace ข้อมูลเพิ่มเติมเกี่ยวกับการกำหนดค่าอ้างอิงถึง configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base