Descarga Comprehensive E2E TTS - Descarga Comprehensive E2E TTS

Comprehensive E2E TTS

Código Fuente de IA

1.0.0

Descargar

Integral-E2E-TTS-Implementación de Pytorch

Un texto a discurso de extremo a voz no autorgresivo (generando forma de onda dada de texto), que respalda a una familia de modelos de duración no supervisados SOTA. Este proyecto crece con la comunidad de investigación, con el objetivo de lograr el mejor E2E-TTS . Cualquier sugerencia hacia los mejores TT de extremo a extremo es bienvenido :)

Diseño de arquitectura

Wavthruvec: Representación del habla latente como características intermedias para la síntesis del habla neural (Siuzdak et al., 2022)
Jets: entrenando conjuntamente FastSpeech2 y Hifi-Gan para el texto de extremo a extremo al habla (Lim et al., 2022)

Codificador lingüístico

FastSpeech 2: texto de extremo a extremo rápido y de alta calidad al habla (Ren et al., 2020)

Audio alterador

HIFI ++: un marco unificado para el vocoding neural, la extensión del ancho de banda y la mejora del habla (Andreev et al., 2022)
Hifi-Gan: redes adversas generativas para la síntesis de habla eficiente y de alta fidelidad (Kong et al., 2020)

Modelado de duración

Modelado de duración diferenciable para texto a discurso de extremo a extremo (Nguyen et al., 2022)
Una alineación de TTS para gobernarlos a todos (Badlani et al., 2021)

Inicio rápido

El conjunto de datos se refiere a los nombres de conjuntos de datos como LJSpeech y VCTK en los siguientes documentos.

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Además, Dockerfile se proporciona para los usuarios Docker .

Inferencia

Debe descargar los modelos previos a la aparición (se compartirá pronto) y colocarlos en output/ckpt/DATASET/ .

Para un TTS de un solo hablante , ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Para un TTS de múltiples altavoces , ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

El diccionario de los altavoces aprendidos se puede encontrar en preprocessed_data/DATASET/speakers.json , y las expresiones generadas se colocarán en output/result/ .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todas las expresiones en preprocessed_data/DATASET/val.txt .

Controlabilidad

La tasa de tono/volumen/habla de las expresiones sintetizadas se puede controlar especificando las relaciones de tono/energía/duración deseadas. Por ejemplo, uno puede aumentar la tasa de habla en un 20 % y disminuir el volumen en un 20 % en

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Agregue -speaker_id stavephising_id para un TTS de múltiples altavoces.

Capacitación

Conjuntos de datos

Los conjuntos de datos compatibles son

LJSPEECH: un conjunto de datos en inglés de un solo hablador consta de 13100 clips de audio cortos de una altavoz femenina que lee pasajes de 7 libros de no ficción, aproximadamente 24 horas en total.
VCTK: El corpus CSTR VCTK incluye datos del habla pronunciados por 110 hablantes de inglés ( TTS de múltiples altavoces ) con varios acentos. Cada orador lee alrededor de 400 oraciones, que fueron seleccionadas de un periódico, el pasaje del arco iris y un párrafo de obtención utilizado para el archivo de acento del habla.

Cualquiera de los dos conjuntos de datos TTS de un solo plato (por ejemplo, Blizzard Challenge 2013) y el conjunto de datos TTS de múltiples altavoces (por ejemplo, Libritts) se pueden agregar después de LJSpeech y VCTK, respectivamente. Además, su propio idioma y conjunto de datos se pueden adaptar siguiendo aquí.

Preprocesamiento

Para un TTS de múltiples altavoces con un incrustador de altavoces externo, descargue el modelo de retraso previo al petróleo rescnn Softmax+de Filipperemy's DeepSpeaker para la incrustación del altavoz y lo ubique ./deepspeaker/pretrained_models/

Ejecute el script de preprocesamiento por

 python3 preprocess.py --dataset DATASET

Capacitación

Entrena tu modelo con

 python3 train.py --dataset DATASET

Opciones útiles:

El entrenador asume el entrenamiento de múltiples GPU de un solo nodo. Para usar GPU específicas, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> al comienzo del comando anterior.

Tabla tensor

Usar

 tensorboard --logdir output/log

para servir tensorboard en su localhost.

Notas

Dos opciones para integrar para la configuración de TTS de múltiples altavoces : entrenamiento de altavoces de altavoz desde cero o usando un modelo de brevepeaker de Philipperemy previamente capacitado (como lo hizo Styler). Puede alternar estableciendo la configuración (entre 'none' y 'DeepSpeaker' ).
Deepspeaker en el conjunto de datos VCTK muestra una identificación clara entre los oradores. La siguiente figura muestra la gráfica T-SNE de la incrustación de altavoces extraídos.