Expeche de rápido chino2
Basado en los datos de voz femeninos estándar de los chinos Biaobei, se mejoró el modelo FastSpeech2 del documento original, y se introdujo la representación rítmica y el módulo de predicción de ritmo para que la pronunciación china fuera más vívida y rítmica
Actualización 20230402
- 1. Agregue el código de entrenamiento del modelo de ritmo, en el directorio de BertProsody
- 2. Agregue el código de preprocesamiento para la capacitación del modelo de ritmo (para los datos de shell estándar, el código no se ha solucionado, primera versión), en preprocesador/biaobei.py
Muestra
Consulte el audio generado en muestras
Archivo modelo
La estructura principal de este proyecto es la estructura de Hifigan FastSpeech2+. Además, el vector de ritmo del texto chino se introduce en la etapa de entrada. Por lo tanto, hay tres modelos: FastSpeech_Model, Hifigan_Model, Prosody_Model (enlace de disco neto, código de extracción: QGPI). Después de descargar, coloque el archivo modelo en el directorio especificado:
- 8000.pth.tar ---> salida/ckpt/biaobei/
- generador_universal.pth.tar ---> hifigan/
- best_model.pt ---> transformer/prosody_model/
predecir
Se proporcionan dos métodos de predicción: 1) Python Synthesize_all.py; 2) Llamada de interfaz HTTP
- El primer método es interactivo . Después de ejecutar Python synthesize_all.py en la línea de comando, ingrese el texto que debe convertirse. Después de ejecutar, el archivo tmp.wav se generará en el código en el directorio de trabajo actual;
- El segundo método es llamar a la API , ejecutar tts_server.py, que iniciará la interfaz de voz a texto. Si llama a esta interfaz, puede consultar testServer.py. El mismo archivo de audio generado (tmp.wav) se guardará en el directorio de trabajo actual.
tren
- Dado que este proyecto se refiere al proyecto FastSpeech2, si desea personalizar la capacitación, el proyecto proporciona un método de capacitación más detallado para referencia;
- Este proyecto ha hecho algunas optimizaciones al método original. Para la parte de optimización, consulte el blog: Síntesis del habla china basada en la optimización de FastSpeech2
Este proyecto es un intento de hacer síntesis del habla a partir de intereses personales. ¡Todos son bienvenidos para criticarme y corregirme y comunicarse más!