これは、KazakhttsとKazakhtts2 Corporaに基づいたKazakhのテキストからスピーチモデルのレシピです。
当社のコードはESPNETに基づいており、フレームワークを事前にインストールする必要があります。インストールガイドに従って、kazakhttsフォルダーをespnet/egs2/ディレクトリ内に配置してください。
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
kazakh_tts/tts1フォルダーに移動し、依存関係へのリンクを作成します。
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
選択したディレクトリにKazakhttsデータセットをダウンロードしてください。 KazakhTTS/tts1/local/data.shスクリプト内のデータセットディレクトリ(オーディオ/トランスクリプト監督が配置されている場所)へのパスを指定します。
db_root=/path-to-speaker-folder
たとえば、 db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
モデルをトレーニングするには、 KazakhTTS/tts1/ folder内でスクリプト./run.shを実行します。 GPUおよびRAMの仕様は、構成( conf/ )フォルダーにあります。
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
fastSpeech/Transformerモデルをトレーニングしたい場合は、それに応じてtrain_config=conf/train.yamlを変更します。各段階の詳細な説明は、ESPNETのリポジトリに文書化されています。
このモデルは、ナザルバエフ大学カザフスタン(以降イサイ)のスマートシステムおよび人工知能研究所によって開発されました。
正当な理由と賢明な方法でのみモデルを使用してください。モデルを使用して、わいせつ、攻撃的、または宗教、性別、人種、言語、または原産地に関する差別を含むデータを生成してはなりません。
Issaiは感謝し、帰属が必要です。帰属には、元の論文のタイトル、著者、およびモデルの開発が行われた組織の名前を含める必要があります。例えば:
Mussakhojayeva、S.、Janaliyeva、A.、Mirzakhmetov、A.、Khassanov、Y.、Varol、HA(2021)Kazakhtts:オープンソースカザフからスピーチ合成データセット。 Proc。 speech 2021、2786-2790、doi:10.21437/interspeech.2021-2124。カザフスタン、ナザルバイエフ大学、スマートシステムおよび人工知能研究所(Issai.nu.edu.kz)
synthesize.pyスクリプトを使用して、任意のテキストを合成できます。スクリプトの次の行を変更します。
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
これで、たとえば、任意のテキストを使用してスクリプトを実行できます。
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
生成されたファイルは、 tts1/synthesized_wavsフォルダーに保存されます。
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}