Autores: Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo @mindslab Inc.
Resumo: Neste artigo, apresentamos o SANE-TTS, um modelo TTS multilíngue estável e natural. Pela dificuldade de obter corpus multilíngue para determinado alto -falante, o treinamento do modelo TTS multilíngue com corpora monolíngue é inevitável. Introduzimos a perda de regularização do alto-falante que melhora a naturalidade da fala durante a síntese cruzada, bem como o treinamento adversário de domínio, que é aplicado em outros modelos multilíngues TTS. Além disso, adicionando perda de regularização do alto-falante, a substituição do alto-falante por um vetor zero no preditor de duração estabiliza a inferência cruzada. Com essa substituição, nosso modelo gera discursos com ritmo moderado, independentemente do falante de origem na síntese cruzada. Na avaliação do MOS, o SANE-TTS atinge a pontuação da naturalidade acima de 3,80, tanto na síntese cruzada quanto intralingual, onde a pontuação da verdade do solo é de 3,99. Além disso, o SANE-TTS mantém a similaridade dos alto-falantes próximos à da verdade do fundamento, mesmo na inferência cruzada. Amostras de áudio estão disponíveis em nossa página da web.
| Procedimento de treinamento | Procedimento de inferência |
|---|---|
![]() | ![]() |