ln -s /path/to/LJSpeech-1.1/wavs DUMMY Silakan merujuk ke XphoneBert untuk informasi lebih lanjut. Mereka menggunakan text2phonemesequence untuk mengubah teks mentah menjadi urutan fonem.
Menginisialisasi text2phonemesequence untuk setiap bahasa membutuhkan kode ISO 639-3 yang sesuai. Kode ISO 639-3 dari bahasa yang didukung tersedia di sini.
text2phonemesequence mengambil urutan yang disegmentasi kata sebagai input. Dan pengguna juga dapat melakukan normalisasi teks pada urutan yang disegmentasi kata sebelum dimasukkan ke dalam text2phonemesequence .
Catatan: Untuk bahasa seperti bahasa Cina, Korea, Jepang (bahasa CJK) dan beberapa bahasa Asia Tenggara, kata -kata tidak dipisahkan oleh ruang. Tokenizer eksternal harus digunakan sebelum memasukkan kata -kata ke dalam model ini. Dalam hal ini, tulis skrip untuk menormalkan dan segmen input Anda sebelum memberi makan ke text2phonemesequence (vie_preprocess.py ada dalam kasus saya)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace Info lebih lanjut tentang konfigurasi merujuk ke configs/config.json
# LJ Speech
python train.py -c configs/config.json -m ljs_base