Sistema de análise/síntese de fala para TTS e aplicações relacionadas.
Este software é baseado no método descrito no artigo:
F. Espic, C. Valentini-Botinhao e S. King, "Modelagem direta de magnitude e espectros de fase para síntese estatística de fala paramétrica", em Proc. Intespeech, Estocolmo, Suécia, agosto de 2017.
@ Autor: Felipe Espic
Mais informações em http://www.felipeespic.com/magphase/
Este é um sistema de análise/síntese da forma de onda de fala usada na síntese estatística de fala paramétrica (SPSS).
O módulo de análise extrai quatro fluxos de apresentação que descrevem espectros de magnitude, espectros de fase e F0. Esses recursos podem ser usados para treinar um modelo de regressão (por exemplo, DNN, LSTM, hmm. Etc.) para que os valores previstos possam ser gerados. O módulo de síntese leva esses recursos na entrada para gerar a forma de onda sintetizada final.
Pontos -chave:
Consulte o arquivo de licença para obter detalhes.
pip install numpy scipy soundfile matplotlib
Download MagPhase: git clone https://github.com/CSTR-Edinburgh/magphase.git
Baixe e compilar SPTK e Reaper por:
cd magphase/tools
./download_and_compile_tools.sh
Isso compilará e configurará o SPTK e o Reaper automaticamente para você ... e é isso!
Basta ir para /demos , leia as instruções dentro dos scripts de demonstração, que são muito descritivos. Eles devem sair da caixa executando python <demo_script> .
Recomendamos que você joga em primeiro lugar com demo_copy_synthesis_lossless.py , e depois demo_copy_synthesis_low_dim.py ambos realizam rotinas de análise/síntese.
Em seguida, você pode modificar os scripts de demonstração para atender às suas necessidades.
Nota: Lembre -se de executar os scripts de seus locais.
Fornecemos duas demos distribuídas com a distribuição oficial do Merlin. Estes mostram exemplos do de Merlin com integração de magphase:
Text-to-fala: SLT_ARCTIC Demo de Merlin (versões pequenas e completas de subconjuntos)
Conversão de voz: demonstração de conversão de voz de Merlin (testado aproximadamente)
Precisamos de ajuda para melhorar este software. Você pode colaborar por:
Construir vozes TTS usando Merlin e Magphase e compare com outros vocoders, por exemplo, mundo. Então, por favor, diga -nos seus resultados. Testamos a Magphase apenas com algumas vozes e é necessária para cobrir uma faixa mais ampla. Recentemente, corrigimos alguns bugs que foram lançados graças às pessoas que relatam seus resultados usando novos dados.
Implementando suporte à taxa de quadros variável nativa em Merlin. A fase funciona de maneira variável da taxa de quadros (síncrona de pitch).