Il s'agit de la recette du modèle de texte à dispection kazakh basé sur les sociétés Kazakhtts et Kazakhtts2.
Notre code s'appuie sur ESPNET et nécessite une installation préalable du cadre. Veuillez suivre le guide d'installation et mettre le dossier Kazakhtts dans espnet/egs2/ répertoire:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Allez dans le dossier kazakh_tts / tts1 et créez des liens vers les dépendances:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
Téléchargez l'ensemble de données Kazakhtts et UNTAR dans le répertoire de votre choix. Spécifiez le chemin d'accès au répertoire de jeu de données (où se trouvent les réseaux audio / transcriptions) à l'intérieur KazakhTTS/tts1/local/data.sh script:
db_root=/path-to-speaker-folder
Par exemple db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
Pour former les modèles, exécutez le script ./run.sh à l'intérieur du dossier KazakhTTS/tts1/ . Les spécifications GPU et RAM peuvent être trouvées dans le dossier Configuration ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
Si vous souhaitez entraîner les modèles FastSpeech / Transformer, modifiez train_config=conf/train.yaml en conséquence. La description détaillée de chaque étape est documentée dans le référentiel d'ESPNET.
Le modèle a été développé par l'Institut des systèmes intelligents et de l'intelligence artificielle de l'Université de Nazarbayev Kazakhstan (désormais ISSAI).
Veuillez utiliser le modèle uniquement pour une bonne cause et de manière sage. Vous ne devez pas utiliser le modèle pour générer des données obscènes, offensantes ou contenir une discrimination en ce qui concerne la religion, le sexe, la race, la langue ou le territoire d'origine.
Issai apprécie et nécessite une attribution. Une attribution doit inclure le titre du document original, l'auteur et le nom de l'organisation sous laquelle le développement du modèle a eu lieu. Par exemple:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Kazakhtts: un jeu de données de synthèse de texte à la parole à la source à source ouverte. Proc. Interspeech 2021, 2786-2790, doi: 10.21437 / interspeech.2021-2124. L'Institut des systèmes intelligents et de l'intelligence artificielle (Issai.nu.edu.kz), Université de Nazarbayev, Kazakhstan
Vous pouvez synthétiser un texte arbitraire à l'aide du script synthesize.py . Modifiez les lignes suivantes dans le script:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
Vous pouvez maintenant exécuter le script à l'aide d'un texte arbitraire, par exemple:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
Le fichier généré sera enregistré dans le dossier tts1/synthesized_wavs .
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}