Esta é a receita do modelo de texto em fala cazaque com base em corpora cazaque e cazaque.
Nosso código se baseia na ESPNET e requer instalação prévia da estrutura. Siga o guia de instalação e coloque a pasta Cazakhtts dentro espnet/egs2/ Diretório:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Vá para a pasta Kazakh_TTS/TTS1 e crie links para as dependências:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
Faça o download do conjunto de dados Cazakhtts e Unt no diretório de sua escolha. Especifique o caminho para o diretório do conjunto de dados (onde estão localizados os diretores de áudio/transcrições) dentro do script KazakhTTS/tts1/local/data.sh :
db_root=/path-to-speaker-folder
Por exemplo, db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
Para treinar os modelos, execute o script ./run.sh dentro de KazakhTTS/tts1/ pasta. As especificações de GPU e RAM podem ser encontradas na pasta Configuração ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
Se você deseja treinar modelos FastSpeech/Transformer, altere train_config=conf/train.yaml de acordo. A descrição detalhada de cada estágio está documentada no repositório da ESPNET.
O modelo foi desenvolvido pelo Instituto de Sistemas Inteligentes e Inteligência Artificial, o Cazaquistão da Universidade de Nazarbayev (doravante Issai).
Por favor, use o modelo apenas para uma boa causa e de maneira sábia. Você não deve usar o modelo para gerar dados obscenos, ofensivos ou conter qualquer discriminação em relação à religião, sexo, raça, linguagem ou território de origem.
Issai aprecia e requer atribuição. Uma atribuição deve incluir o título do artigo original, o autor e o nome da organização sob a qual ocorreu o desenvolvimento do modelo. Por exemplo:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Kazakhtts: um conjunto de dados de síntese de texto em texto da Kazakh de código aberto. Proc. Intespeech 2021, 2786-2790, doi: 10.21437/Interspeech.2021-2124. O Instituto de Sistemas Inteligentes e Inteligência Artificial (Issai.nu.edu.kz), Universidade de Nazarbayev, Cazaquistão
Você pode sintetizar um texto arbitrário usando script synthesize.py . Modifique as seguintes linhas no script:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
Agora você pode executar o script usando um texto arbitrário, por exemplo:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
O arquivo gerado será salvo na pasta tts1/synthesized_wavs .
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}