Скачать Kazakh_TTS - скачать Kazakh

Kazakh_TTS

AI Исходный код

1.0.0

Скачать

Казахттс рецепт

Это рецепт казахской модели текста в речь, основанная на казахттсе и казахттс2 корпусах.

Настройка и требования

Наш код основан на ESPNET и требует предварительной установки фреймворка. Пожалуйста, следуйте руководству по установке и поместите папку Kazakhtts в espnet/egs2/ Directory:

 cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git

Перейдите в папку Kazakh_tts/TTS1 и создайте ссылки на зависимости:

 ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .

Загрузка набора данных

Загрузите набор данных Kazakhtts и Untar в каталоге по вашему выбору. Укажите путь к каталогу набора данных (где расположены Dirs Audio/Transcripts) внутри KazakhTTS/tts1/local/data.sh Script:

 db_root=/path-to-speaker-folder

Например, db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books

Обучение

Чтобы тренировать модели, запустите скрипт ./run.sh внутри KazakhTTS/tts1/ папки. Спецификации GPU и RAM можно найти в папке Configuration ( conf/ ).

 ./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml

Если вы хотите тренировать модели Fastspeech/Transformer, измените train_config=conf/train.yaml соответственно. Подробное описание каждого этапа задокументировано в репозитории ESPNet.

Предварительные модели

Модель была разработана Институтом интеллектуальных систем и искусственного интеллекта Университетом Назарбаева Казахстана (отныне Иссаи).

Пожалуйста, используйте модель только для хорошего дела и мудрым образом. Вы не должны использовать модель для генерации данных, которые являются непристойными, оскорбительными или содержать какую -либо дискриминацию в отношении религии, пола, расы, языка или территории происхождения.

Иссаи ценит и требует атрибуции. Атрибуция должна включать в себя название оригинальной статьи, автора и название организации, под которым произошла разработка модели. Например:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Казахттс: набор данных с открытым исходным кодом из казахского текста в речь. Прокурор Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. Институт интеллектуальных систем и искусственного интеллекта (Issai.nu.edu.kz), Университет Назарбаева, Казахстан

kaztts_female1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female1_tacotron2_train.loss.ave.zip

kaztts_female2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female2_tacotron2_train.loss.ave.zip

kaztts_female3_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female3_tacotron2_train.loss.ave.zip

kaztts_male1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male1_tacotron2_train.loss.ave.zip

kaztts_male2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male2_tacotron2_train.loss.ave.zip

Предварительно проживающие вокали

parallelwavegan_female1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female1_checkpoint.zip

parallelwavegan_female2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female2_checkpoint.zip

parallelwavegan_female3_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female3_checkpoint.zip

parallelwavegan_male1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male1_checkpoint.zip

parallelwavegan_male2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male2_checkpoint.zip

Синтез речи

Вы можете синтезировать произвольный текст, используя сценарий synthesize.py . Измените следующие строки в сценарии:

 ## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"

## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

Теперь вы можете запустить скрипт, используя произвольный текст, например:

 python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."

Сгенерированный файл будет сохранен в папке tts1/synthesized_wavs .

Цитирование

 @inproceedings{mussakhojayeva21_interspeech,
  author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
  title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
  year=2021,
  booktitle={Proc. Interspeech 2021},
  pages={2786--2790},
  doi={10.21437/Interspeech.2021-2124}
}

Расширять

Дополнительная информация