Descargar WaveGrad2 - Descargar el código fuente de WaveGrad2

WaveGrad2

Código Fuente de IA

v1.0.0

Descargar

WaveGrad2 - Implementación de Pytorch

Implementación de Pytorch de Wavegrad 2 de Google Brain: Refinamiento iterativo para la síntesis de texto a voz.

Inicio rápido

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Inferencia

Debe descargar los modelos previos a la aparición y ponerlos en output/ckpt/LJSpeech/ .

Para TTS de un solo hablante inglés, ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Las expresiones generadas se colocarán en output/result/ .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step RESTORE_STEP --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Para sintetizar todas las expresiones en preprocessed_data/LJSpeech/val.txt

Controlabilidad

La tasa de habla de las expresiones sintetizadas se puede controlar especificando las relaciones de duración deseadas. Por ejemplo, uno puede aumentar la tasa de hablar en un 20 % por

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml --duration_control 0.8

Capacitación

Conjuntos de datos

Los conjuntos de datos compatibles son

LJSPEECH: un conjunto de datos en inglés de un solo hablador consta de 13100 clips de audio cortos de una altavoz femenina que lee pasajes de 7 libros de no ficción, aproximadamente 24 horas en total.

Preprocesamiento

Primero, corre

 python3 prepare_align.py config/LJSpeech/preprocess.yaml

para algunos preparativos.

Como se describe en el documento, el alineador forzado de Montreal (MFA) se usa para obtener las alineaciones entre las expresiones y las secuencias de fonema. Aquí se proporcionan alineaciones para los conjuntos de datos LJSPEECch (gracias a FastSpeech2 de Ming024). Debe descomprimir los archivos en preprocessed_data/LJSpeech/TextGrid/ .

Después de eso, ejecute el script de preprocesamiento por

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Alternativamente, puede alinear el corpus usted mismo. Descargue el paquete oficial de MFA y ejecute

 ./montreal-forced-aligner/bin/mfa_align raw_data/LJSpeech/ lexicon/librispeech-lexicon.txt english preprocessed_data/LJSpeech

o

 ./montreal-forced-aligner/bin/mfa_train_and_align raw_data/LJSpeech/ lexicon/librispeech-lexicon.txt preprocessed_data/LJSpeech

Para alinear el corpus y luego ejecutar el script de preprocesamiento.

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Capacitación

Entrena tu modelo con

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Tabla tensor

Usar

 tensorboard --logdir output/log/LJSpeech

para servir tensorboard en su localhost. Se muestran las curvas de pérdida, los espectrogramas MEL sintetizados y los audios.

Problemas de implementación

Use 22050Hz en lugar de 24KHz y siga las configuraciones generales de LJSpeech.
No ZoneOutBilStM en TextInner. Use nn.LSTM en su lugar.
Entrada de texto de preprocesamiento sin tokens de silencio insertados en los límites de las palabras.

Citación

 @misc{lee2021wavegrad2,
  author = {Lee, Keon},
  title = {WaveGrad2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/WaveGrad2}}
}