Implementação oficial do Learn2Sing 2.0. Para todos os detalhes, consulte o nosso artigo, que é aceito pelo InterSpeech 2022 por meio deste link.
Autores : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.
Página de demonstração : link.
Construir um corpus canto de alta qualidade para uma pessoa que não é boa em cantar não é trivial, tornando-o desafiador criar um sintetizador de voz para essa pessoa. Learn2Sing é dedicado a sintetizar a voz de um orador sem seus dados de canto aprendendo com dados registrados por outros, ou seja, o professor de canto. Inspirado pelo fato de que Pitch é o principal fator de estilo para distinguir o canto da voz de falar, o Learn2Sing 2.0 proposto primeiro gera o recurso acústico preliminar com valor médio de afinação no nível do telefone, o que permite o treinamento desse processo para diferentes estilos, ou seja, falando ou cantando, compartilhe as mesmas condições, exceto as informações do alto -falante. Em seguida, condicionado ao estilo específico, um decodificador de difusão, que é acelerado por um algoritmo de amostragem rápido durante o estágio de inferência, é adotado para restaurar gradualmente a característica acústica final. Durante o treinamento, para evitar a confusão da informação da incorporação do alto -falante e da incorporação de estilo, informações mútuas são empregadas para restringir o aprendizado da incorporação e incorporação de estilo do alto -falante. As experiências mostram que a abordagem proposta é capaz de sintetizar voz de alta qualidade para o alto-falante alvo sem cantar dados com 10 etapas de decodificação.
Substitua o telefone e o conjunto de arremessos no texto/símbolos.py por seu próprio conjunto
Forneça o caminho para os dados em config.json, a pasta TestData contém arquivos de exemplo para demonstrar o formato
Treinamento
bash run.sh
Inferência
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True