As amostras estão disponíveis nas páginas do Github !!!
Título: E3-Vits: TTS de ponta a ponta emocional com transferência de estilo cruzado (link em papel)
Resumo: Como os modelos TTS emocionais anteriores são baseados em um pipeline de duas etapas ou rótulos adicionais, seu processo de treinamento é complexo e requer um alto custo de rotulagem. Para lidar com esse problema, este artigo apresenta E3-Vits, um modelo TTS emocional de ponta a ponta que aborda as limitações dos modelos existentes. O E3-VITS sintetiza discursos de alta qualidade para condições de vários falantes, suporta a fala de fala e a síntese emocional de fala baseada em descrição textual e permite a transferência de emoção entre os falantes com um conjunto de dados disjuntos. Para implementar o E3-Vits, propomos perturbação de estilo em lote, que gera amostras de áudio com emoção não pareada para aumentar a qualidade da transferência de emoção cruzada. Os resultados mostram que o E3-VITS supera o modelo de linha de base em termos de naturalidade, similaridade do alto-falante e emocional e velocidade de inferência.