Esta es la receta del modelo de texto a voz kazajos basado en los corpusas Kazajhtts y Kazajhtts2.
Nuestro código se basa en ESPNet y requiere la instalación previa del marco. Siga la guía de instalación y coloque la carpeta Kazajhtts dentro de espnet/egs2/ Directorio:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Vaya a la carpeta KAZAKH_TTS/TTS1 y cree enlaces a las dependencias:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
Descargue el conjunto de datos de Kazajhtts y un untar en el directorio de su elección. Especifique la ruta al directorio del conjunto de datos (donde se encuentran los directivos de audio/transcripciones) dentro de KazakhTTS/tts1/local/data.sh script:
db_root=/path-to-speaker-folder
Por ejemplo db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
Para entrenar los modelos, ejecute el script ./run.sh dentro de KazakhTTS/tts1/ carpeta. Las especificaciones de GPU y RAM se pueden encontrar en la carpeta de configuración ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
Si desea entrenar modelos FastSpeech/Transformer, cambie train_config=conf/train.yaml en consecuencia. La descripción detallada de cada etapa se documenta en el repositorio de ESPNet.
El modelo fue desarrollado por el Instituto de Sistemas Smart e Inteligencia Artificial, Universidad de Nazarbayev Kazajstan (en adelante Issai).
Utilice el modelo solo para una buena causa y de manera sabia. No debe usar el modelo para generar datos obscenos, ofensivos o que contengan ninguna discriminación con respecto a la religión, el sexo, la raza, el idioma o el territorio de origen.
Issai aprecia y requiere atribución. Una atribución debe incluir el título del documento original, el autor y el nombre de la organización bajo el cual tuvo lugar el desarrollo del modelo. Por ejemplo:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Kazajhtts: un conjunto de síntesis de texto a voz kazajos de código abierto. Proc. Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. El Instituto de Sistemas Smart e Inteligencia Artificial (issai.nu.edu.kz), Universidad de Nazarbayev, Kazajstán
Puede sintetizar un texto arbitrario usando synthesize.py script. Modifique las siguientes líneas en el script:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
Ahora puede ejecutar el script usando un texto arbitrario, por ejemplo:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
El archivo generado se guardará en la carpeta tts1/synthesized_wavs .
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}