Descargar End to End TTS Fine Tune - Descargar el código fuente de End to End TTS Fine Tune

Descargar

TTS de extremo a extremo TTS

Este proyecto tiene como objetivo desarrollar el sistema TTS de ' Asistente de IA para personas mayores '. Puede crear un asistente de inteligencia artificial con la voz de familiares o amigos y amantes con solo 5 minutos de grabación de voz.
Para hacer frente al altavoz AI que requiere la generación en tiempo real, adoptamos el modelo acústico no autorgresivo FastSPE2 y el modelo Vocoder basado en GaN Hifi-Gan para considerar la calidad y la velocidad de producción.
Se han llevado a cabo costumbres adicionales para mejorar el rendimiento de los múltiples altavoces.
Este repositorio está configurado para simplemente realizar el proceso de aprendizaje y creación utilizando el scrip de shell para configurar el altavoz múltiple D-vector fastspeech2 y el modelo HIFI-GAN para permitir el ajuste fino.
Para proporcionar TTS de tiempo real en la aplicación, use FastAPI para configurar el servidor y el enlace con el backend.

Acoustic-FastSpeech2 (personalizado)
Rendimiento razonable mediante la utilización del aprendizaje de transferencia para personalización con pequeñas cantidades de datos
Proporcione API que se puedan crear con un ajuste fino en conjuntos de datos coreanos en tiempo real

Según el fin_tune_transcript.txt que pertenece a la carpeta del conjunto de datos, registre 100 oraciones con el número con un teléfono inteligente y convierta el archivo M4A en un archivo WAV con una tasa de muestreo de 16000. (FFMPEG)

Como se muestra en la figura, se agregan 100 archivos WAV convertidos a su carpeta inicial.

Modificación del código del modelo según Fine-Tune
- Modificación e integración de FastSpeech2 y Hifi-Gan
- DataSet, CKPT y Directorio de resultados se dividen en el directorio de nivel superior por conjunto de datos
Preprocesos fáciles, tren, síntesis a través del script de shell
- Cambiando el directorio del conjunto de datos
Proporcionar una imagen de Docker única
- Proporcionar imágenes que se puedan realizar inmediatamente sin agregar paquetes de dependencia adicionales complejos
- Importar la última imagen a través del enlace Docker Hub

Coincide con el nombre del archivo de CKPT pre-capacitado de FastSpeech2 y Hifi-Gan y lo mantiene en cada modelo.
(FastSpeech2: 30,000 pasos de aprendizaje / HIFI -GAN -JUNGIL King Oficial -University -University -University)
Para el aprendizaje y la síntesis, cargamos y ejecutamos imágenes de Docker que contienen todos los paquetes dependientes.
```
 docker pull hws0120/e2e_speech_synthesis 
```
Run_fs2_processing.sh Los pasos están conectados a Docker con un comando Conda e instala el paquete Python Jamo.
```
 conda activate aligner
pip install jamo
```
Fin del entorno virtual para realizar run_fs2_train o síntesis.
```
 conda activate base
```