Chinês-FastSpeech2
Com base nos dados de voz feminina padrão dos chineses biaobei, o modelo FastSpeech2 do artigo original foi melhorado, e a representação rítmica e o módulo de previsão de ritmo foram introduzidos para tornar a pronúncia chinesa mais vívida e rítmica
20230402 Atualização
- 1. Adicione o código de treinamento do modelo de ritmo, no diretório BertProsody
- 2. Adicione o código de pré -processamento para o treinamento do modelo de ritmo (para dados padrão de shell, o código não foi resolvido, primeiro lançamento), no pré -processador/biaobei.py
Amostra
Consulte o áudio gerado em amostras
Arquivo de modelo
A principal estrutura deste projeto é a estrutura FastSpeech2+Hifigan. Além disso, o vetor ritmo do texto chinês é introduzido no estágio de entrada. Portanto, existem três modelos: fastspeech_model, hifigan_model, prosody_model (link de disco líquido, código de extração: qgpi). Após o download, coloque o arquivo do modelo no diretório especificado:
- 8000.PTH.tar ---> saída/ckpt/biaobei/
- generator_universal.pth.tar ---> hifigan/
- best_model.pt ---> transformador/prosody_model/
prever
Dois métodos de previsão são fornecidos: 1) python synthesize_all.py; 2) Chamada de interface HTTP
- O primeiro método é interativo . Depois de executar o Python synthesize_all.py na linha de comando, digite o texto que precisa ser convertido. Após a execução, o arquivo tmp.wav será gerado no código no diretório de trabalho atual;
- O segundo método é chamar a API , executar tts_server.py, que iniciará a interface de voz para texto. Se você chamar essa interface, poderá consultar o testServer.py. O mesmo arquivo de áudio gerado (tmp.wav) será salvo no diretório de trabalho atual.
trem
- Como este projeto refere -se ao projeto FastSpeech2, se você deseja personalizar o treinamento, o projeto fornece um método de treinamento mais detalhado para referência;
- Este projeto fez algumas otimizações para o método original. Para a parte de otimização, consulte o blog: síntese de fala chinesa com base na otimização do FastSpeech2
Este projeto é uma tentativa de tornar a síntese de fala dos interesses pessoais. Todos são convidados a criticar e me corrigir e comunicar mais!