Download de Kazakh_TTS - Kazakh_TTS Download do código -fonte

Kazakh_TTS

Código-Fonte de IA

1.0.0

Baixar

Receita cazaque

Esta é a receita do modelo de texto em fala cazaque com base em corpora cazaque e cazaque.

Configuração e requisitos

Nosso código se baseia na ESPNET e requer instalação prévia da estrutura. Siga o guia de instalação e coloque a pasta Cazakhtts dentro espnet/egs2/ Diretório:

 cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git

Vá para a pasta Kazakh_TTS/TTS1 e crie links para as dependências:

 ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .

Baixando o conjunto de dados

Faça o download do conjunto de dados Cazakhtts e Unt no diretório de sua escolha. Especifique o caminho para o diretório do conjunto de dados (onde estão localizados os diretores de áudio/transcrições) dentro do script KazakhTTS/tts1/local/data.sh :

 db_root=/path-to-speaker-folder

Por exemplo, db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books

Treinamento

Para treinar os modelos, execute o script ./run.sh dentro de KazakhTTS/tts1/ pasta. As especificações de GPU e RAM podem ser encontradas na pasta Configuração ( conf/ ).

 ./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml

Se você deseja treinar modelos FastSpeech/Transformer, altere train_config=conf/train.yaml de acordo. A descrição detalhada de cada estágio está documentada no repositório da ESPNET.

Modelos pré -teremam

O modelo foi desenvolvido pelo Instituto de Sistemas Inteligentes e Inteligência Artificial, o Cazaquistão da Universidade de Nazarbayev (doravante Issai).

Por favor, use o modelo apenas para uma boa causa e de maneira sábia. Você não deve usar o modelo para gerar dados obscenos, ofensivos ou conter qualquer discriminação em relação à religião, sexo, raça, linguagem ou território de origem.

Issai aprecia e requer atribuição. Uma atribuição deve incluir o título do artigo original, o autor e o nome da organização sob a qual ocorreu o desenvolvimento do modelo. Por exemplo:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Kazakhtts: um conjunto de dados de síntese de texto em texto da Kazakh de código aberto. Proc. Intespeech 2021, 2786-2790, doi: 10.21437/Interspeech.2021-2124. O Instituto de Sistemas Inteligentes e Inteligência Artificial (Issai.nu.edu.kz), Universidade de Nazarbayev, Cazaquistão

kaztts_female1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female1_tacotron2_train.loss.ave.zip

kaztts_female2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female2_tacotron2_train.loss.ave.zip

kaztts_female3_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female3_tacotron2_train.loss.ave.zip

kaztts_male1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male1_tacotron2_train.loss.ave.zip

kaztts_male2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male2_tacotron2_train.loss.ave.zip

Vocoders pré -tenhados

parallelwavegan_female1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female1_checkpoint.zip

parallelwavegan_female2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female2_checkpoint.zip

parallelwavegan_female3_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female3_checkpoint.zip

parallelwavegan_male1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male1_checkpoint.zip

parallelwavegan_male2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male2_checkpoint.zip

Síntese de fala

Você pode sintetizar um texto arbitrário usando script synthesize.py . Modifique as seguintes linhas no script:

 ## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"

## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

Agora você pode executar o script usando um texto arbitrário, por exemplo:

 python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."

O arquivo gerado será salvo na pasta tts1/synthesized_wavs .

Citação

 @inproceedings{mussakhojayeva21_interspeech,
  author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
  title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
  year=2021,
  booktitle={Proc. Interspeech 2021},
  pages={2786--2790},
  doi={10.21437/Interspeech.2021-2124}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 28.7KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
F5 TTS ComfyUI

2024-11-02
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos