Implementação de TTS com combinação de tacotron2 e hifi-gan para mandarim TTS.
Para inferência, precisamos baixar o modelo Tacotraon2 pré-treinado para mandarim e colocar no caminho raiz. Em seguida, podemos executar infer_tacotron2_hifigan.py para obter o resultado do TTS. Podemos alterar o texto de entrada editando text variável no infer_tacotron2_hifigan.py . Então o resultado será salvo no caminho raiz nomeado como output.wav .
O modelo pré-treinado de HIFI-GAN foi colocado no LJ_FT_T2_V3 , que é treinado por LJSPPECH e ajustado com Tacotron2. Você pode encontrar um modelo mais pré-treinado a partir do repo Hifi-Gan original com tamanho e parâmetros diferentes. Se você deseja experimentar diferentes modelos ou treinar seu próprio modelo, lembre-se de alterar as variáveis no infer_tacotron2_hifigan.py para alterar o caminho do modelo HIFI-GAN.
Entrada:相对论直接和间接的催生了量子力学的诞生也为研究微观世界的高速运动确立了全新的数学模型
Saída: tacotron2-hifigan.wav