Это рецепт казахской модели текста в речь, основанная на казахттсе и казахттс2 корпусах.
Наш код основан на ESPNET и требует предварительной установки фреймворка. Пожалуйста, следуйте руководству по установке и поместите папку Kazakhtts в espnet/egs2/ Directory:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Перейдите в папку Kazakh_tts/TTS1 и создайте ссылки на зависимости:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
Загрузите набор данных Kazakhtts и Untar в каталоге по вашему выбору. Укажите путь к каталогу набора данных (где расположены Dirs Audio/Transcripts) внутри KazakhTTS/tts1/local/data.sh Script:
db_root=/path-to-speaker-folder
Например, db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
Чтобы тренировать модели, запустите скрипт ./run.sh внутри KazakhTTS/tts1/ папки. Спецификации GPU и RAM можно найти в папке Configuration ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
Если вы хотите тренировать модели Fastspeech/Transformer, измените train_config=conf/train.yaml соответственно. Подробное описание каждого этапа задокументировано в репозитории ESPNet.
Модель была разработана Институтом интеллектуальных систем и искусственного интеллекта Университетом Назарбаева Казахстана (отныне Иссаи).
Пожалуйста, используйте модель только для хорошего дела и мудрым образом. Вы не должны использовать модель для генерации данных, которые являются непристойными, оскорбительными или содержать какую -либо дискриминацию в отношении религии, пола, расы, языка или территории происхождения.
Иссаи ценит и требует атрибуции. Атрибуция должна включать в себя название оригинальной статьи, автора и название организации, под которым произошла разработка модели. Например:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Казахттс: набор данных с открытым исходным кодом из казахского текста в речь. Прокурор Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. Институт интеллектуальных систем и искусственного интеллекта (Issai.nu.edu.kz), Университет Назарбаева, Казахстан
Вы можете синтезировать произвольный текст, используя сценарий synthesize.py . Измените следующие строки в сценарии:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
Теперь вы можете запустить скрипт, используя произвольный текст, например:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
Сгенерированный файл будет сохранен в папке tts1/synthesized_wavs .
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}