Sistema de análisis/síntesis de voz para TTS y aplicaciones relacionadas.
Este software se basa en el método descrito en el documento:
F. Espic, C. Valentini-Botinhao y S. King, "Modelado directo de magnitud y espectros de fase para la síntesis estadística del habla paramétrica", en Proc. Interpech, Estocolmo, Suecia, agosto de 2017.
@ Autor: Felipe Espic
Más información en http://www.felipeespic.com/magphase/
Este es un sistema de análisis/síntesis de forma de onda del habla utilizado en la síntesis de habla paramétrica estadística (SPSS).
El módulo de análisis extrae cuatro transmisiones de características que describen espectros de magnitud, espectros de fase y F0. Estas características se pueden usar para entrenar un modelo de regresión (por ejemplo, DNN, LSTM, Hmm., Etc.) Entonces, se pueden generar valores predichos. El módulo de síntesis toma estas características en la entrada para generar la forma de onda sintetizada final.
Puntos clave:
Consulte el archivo de licencia para obtener más detalles.
pip install numpy scipy soundfile matplotlib
Descargar magphase: git clone https://github.com/CSTR-Edinburgh/magphase.git
Descargue y compile SPTK y Reaper por:
cd magphase/tools
./download_and_compile_tools.sh
Esto compilará y configurará SPTK y Reaper automáticamente para usted ... ¡y eso es todo!
Simplemente vaya a /demos , lea las instrucciones dentro de los scripts de demostración, que son muy desglosivos. Deberían salir fuera de la caja ejecutando python <demo_script> .
Recomendamos que se reproduce en primer lugar con demo_copy_synthesis_lossless.py , y luego demo_copy_synthesis_low_dim.py , ambos realizan rutinas de análisis/síntesis.
Luego, puede modificar los scripts de demostración para satisfacer sus necesidades.
Nota: Solo recuerde ejecutar los scripts desde sus ubicaciones.
Proporcionamos dos demostraciones distribuidas con la distribución oficial de Merlín. Estos muestran ejemplos de la de Merlín con integración de la magfase:
TEXTO T-DISECH: Demo SLT_ARTIC de Merlín (versiones de subconjunto pequeñas y completas)
Conversión de voz: demostración de conversión de voz de Merlín (probada más o menos)
Necesitamos ayuda para mejorar este software. Puedes colaborar por:
Construyendo voces TTS usando Merlín y Magphase y comparar con otros vocoders, por ejemplo, mundo. Entonces, díganos sus resultados. Hemos probado la magfasa solo con algunas voces y es necesario cubrir una gama más amplia. Recientemente hemos solucionado algunos errores que han salido gracias a las personas que informan sus resultados utilizando nuevos datos.
Implementación de soporte de velocidad de cuadro variable nativa en Merlin. Magphase funciona en una moda de velocidad de fotogramas variable (tono sincrónico).