Descarga PortaSpeech - Descargar el código fuente PortaSpeech

PortaSpeech

Código Fuente de IA

v0.2.0

Descargar

Portaspech - Implementación de Pytorch

Implementación de Pytorch de Portaspeech: texto de texto a voz portátil y de alta calidad.

Muestras de audio

Las muestras de audio están disponibles en /demostración.

Tamaño del modelo

Módulo	Normal	Pequeño	Normal (papel)	Pequeño (papel)
Total	24m	7.6m	21.8m	6.7m
Lingüística	3.7m	1.4m	-	-
Variacionalgenerador	11m	2.8m	-	-
Postón de flujo	9.3m	3.4m	-	-

Inicio rápido

El conjunto de datos se refiere a los nombres de conjuntos de datos como LJSpeech en los siguientes documentos.

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Además, Dockerfile se proporciona para los usuarios Docker .

Inferencia

Debe descargar los modelos previos a la aparición y ponerlos en output/ckpt/DATASET/ .

Para un TTS de un solo hablante , ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Las expresiones generadas se colocarán en output/result/ .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todas las expresiones en preprocessed_data/DATASET/val.txt .

Controlabilidad

La tasa de habla de las expresiones sintetizadas se puede controlar especificando las relaciones de duración deseadas. Por ejemplo, uno puede aumentar la tasa de hablar por 20 por

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

Tenga en cuenta que la capacidad de control se origina en FastSpeech2 y no es un interés vital de Portaspech.

Capacitación

Conjuntos de datos

Los conjuntos de datos compatibles son

LJSPEECH: un conjunto de datos en inglés de un solo hablante consta de 13100 clips de audio cortos de una altavoz femenina que lee pasajes de 7 libros de no ficción, aproximadamente 24 horas en total.

Preprocesamiento

Correr

 python3 prepare_align.py --dataset DATASET

para algunos preparativos.

Para la alineación forzada, el alineador forzado de Montreal (MFA) se usa para obtener las alineaciones entre las expresiones y las secuencias de fonema. Aquí se proporcionan alineaciones preextracidas para los conjuntos de datos. Debe descomprimir los archivos en preprocessed_data/DATASET/TextGrid/ . Alternativamente, puede ejecutar el alineador usted mismo.

Después de eso, ejecute el script de preprocesamiento por

 python3 preprocess.py --dataset DATASET

Capacitación

Entrena tu modelo con

 python3 train.py --dataset DATASET

Opciones útiles:

Para usar el argumento automático de precisión mixta, append --use_amp al comando anterior.
El entrenador asume el entrenamiento de múltiples GPU de un solo nodo. Para usar GPU específicas, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> al comienzo del comando anterior.

Tabla tensor

Usar

 tensorboard --logdir output/log

para servir tensorboard en su localhost. Se muestran las curvas de pérdida, los espectrogramas MEL sintetizados y los audios.

Modelo normal

Pérdida de modelo pequeña

Notas

Para Vocoder, Hifi-Gan y Melgan son apoyados.
No hay activación de Relu y tormenta de laicos en variacionalgenerator para evitar la salida del puré.
Acelere la convergencia de la alineación de palabras a fonema en Linguisticencoder dividiendo palabras largas en subvenciones y clasificando el conjunto de datos por longitud del marco del espectrograma MEL.
Hay dos tipos de pérdida de ayuda para mejorar la alineación de palabras a fonemas: "CTC" y "DGA". Puedes alternarlos de la siguiente manera:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": pérdida de atención guiada diagonal (DGA)
- "CTC": pérdida de clasificación temporal de conexión (CTC) con algoritmo de suma hacia adelante
- Si establece "Ninguno", no se aplicará pérdida de ayuda durante el entrenamiento.
- La comparación de alineaciones de tres métodos ("DGA", "CTC" y "Ninguno" de arriba a abajo):
- La configuración predeterminada es "DGA". Aunque "CTC" hace la alineación más fuerte, la calidad de salida y la precisión son peores que "DGA".
- Pero aún así, hay un espacio para la mejora de la calidad de la producción. La calidad de audio y la alingment (precisión) parecen ser una compensación.
Se extenderá a un TTS de múltiples altavoces .