XphoneBert_Vits2
1.0.0
ln -s /path/to/LJSpeech-1.1/wavs DUMMY詳細については、Xphonebertを参照してください。彼らは、生のテキストを音素シーケンスに変換するためにtext2phonemesequenceを使用しています。
各言語のtext2phonemesequenceの初期化には、対応するISO 639-3コードが必要です。サポートされている言語のISO 639-3コードはこちらで入手できます。
text2phonemesequence 、単語セグメント化されたシーケンスを入力として取得します。また、ユーザーは、 text2phonemesequenceにフィードを付ける前に、単語セグメント化されたシーケンスでテキスト正規化を実行する場合があります。
注:中国語、韓国語、日本語(CJK言語)、いくつかの東南アジア語などの言語については、単語は空間で区切られていません。このモデルに単語を供給する前に、外部トークン剤を使用する必要があります。この場合、 text2phonemesequenceにフィードを与える前に入力を正規化およびセグメント化するスクリプトを書きます(vie_preprocess.pyは私の場合です)
# In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda
# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplaceconfigの詳細についてはconfigs/config.jsonを参照してください
# LJ Speech
python train.py -c configs/config.json -m ljs_base