Descarga FastSpeech2 Pytorch Korean Multi Speaker - Código fuente FastSpeech2 Pytorch Korean Multi Speaker descarga

Descargar

Fastspeech2-pytorch-corean-multi-speaker

Este proyecto se implementa en TTS múltiples coreanos TTS combinando Hifi-Gan Vocoder con FastSpeech2.

Este proyecto tiene como objetivo desarrollar el TTS del proyecto 'Player de IA personalizado visible' . Es reemplazado por las voces de las personas que lo rodean desean, en lugar de las voces de 'Siri', 'Bixby' y 'Ari'. (Ex. Cónyuge, hijo, hija, padres, etc.)
Con el fin de hacer frente a la producción inmediata de altavoces de IA, en lugar de un excelente rendimiento de Tacotron2 y Wavlow, el modelo de vocoder de Vocoder no autorregresivo y no autorregresivo y el modelo de vocoder basado en GaN adoptaron la calidad y la velocidad de producción lo consideran.
Basado en el código fuente de FastSpeech2 que corresponde al KSS de conjunto de datos coreano implementado en DLLAB.

Uso de Acoustic-FastSpeech2, Vocoder-Hifigan Modelo para velocidad de síntesis rápida y alto rendimiento
Transferir el aprendizaje para personalizar con pequeñas cantidades de datos ( ~~+ Clonación de disparo cero~~ Proyecto paralelo )
Implementación de integración de oradores para aprender múltiples altavoces para el pre-tren
Configuración de la tubería para que el proceso de aprendizaje se realice en el conjunto de datos coreano hasta el extremo a extremo

Para el pre-entrenado, aprenda usando la voz de conversación gratuita de Aihub.
- En promedio, 1 hora y 30 minutos, aprendiendo con 30 hombres y 28 datos femeninos en consideración de calidad
- Cada orador otorgó una identificación de número única en el proceso de pretratamiento
Para el ajuste fino, consulte el script KSS y registre la voz del nuevo altavoz en 100 oraciones de 300 oraciones-600 oraciones para evaluar el rendimiento.

El contenido agregado en el código utilizado es el siguiente.

Implementación de incrustación de oradores (FastSpeech2 de múltiples altavoces coreano)
- Agregar capa de incrustación al modelo
- Salida del codificador e implementación del código (incrustación, integrador de altavoces)
- Implementación de la función get_speakers () que importa y almacena la información de incrustación
Data_processing.py-end-to-end data implementación de pretratamiento que contiene todos los elementos a continuación
Respuesta a la síntesis inestable de oraciones largas
- Establezca para adjuntar después de sintetizar en una unidad de caracteres especial (unidad de oración)
Importar código fuente G2PK y aplicar solo números e inglés
- Modifique el paquete del G2PK existente solo en idioma coreano sin la instalación de PIP.

Guarde el directorio WAV y el archivo JSON o de transcripción en el directorio de nombre de datos/datos de datos como se muestra.
Aprenda a Montal Forced Alinger en Kaldi a aprender TextGrid aprendiendo datos de audio.
```
 # lab 생성, mfa 학습, lab 분리
python data_preprocessing.py 
```
Guarde el generador aprendido por Hifi-Gan para su evaluación durante el aprendizaje en el directorio Vocoder/Pretined_Models.

Escriba los datos directamente de acuerdo con el formato, o cree una transcripción refiriéndose a la función de data_preprocessing.py
Almacene la transcripción generada y el directorio de los datos en el conjunto de datos y ejecute data_processing.py
El trabajo de MFA se completa y el archivo TextGrid.zip se crea en el directorio superior
Preprocess.py realiza y verifica la carpeta pretrocesada.

Configure la ruta del tamaño de lotes de HPARAM.PY, el generador Hifi-Gan y comience a aprender.
```
 python train.py
```
Si está estudiando, puede aprender agregando restaure_step.
```
 python train.py --restore_step [step]
```

Si realiza un entrenador previo para múltiples altavoces, Storage Speaker_info.json generó automáticamente durante el aprendizaje previo al tren
Pon Speaker_info.json en la parte superior del directorio
Ejecutar Python de la misma manera que realizar un estudio en el tren
```
 python train.py --restore_step [pre-train의 step]
```

Esta tubería es una tubería de flujo para el aprendizaje y la creación de TTS que corresponde al servicio.

Transfer_learning_pipeline

Los contenedores se clasifican en gran medida como cuatro.
1. Contenedor de base de datos que contiene la ruta y la información del usuario de los datos
2. Creación de transcripción, simplificación del nombre del archivo, extracción TextGrid con MFA, contenedor de preprocesamiento de datos para el modelo
3. Contenedor de aprendizaje para la capacitación previa
4. Contenedor de aprendizaje para ajustar nuevos datos
En la situación del servicio real, solo tres contenedores funcionarán.

Expandir

Información adicional

Aplicaciones relacionadas

Recomendado para ti

Información relacionada Todo