Descargar FCH TTS - Descargar el código fuente FCH TTS

FCH TTS

Código Fuente de IA

1.0.0

Descargar

Chino simplificado | Inglés

Síntesis de discurso paralelo

[TOC]

Nuevo progreso

2021/04/20 fusione la rama de Wavegan a la rama principal principal y elimine la rama Wavegan!
2021/04/13 ¡Cree una rama del codificador para desarrollar módulos de migración de estilo de voz!
2021/04/13 ¡La rama SoftDTW es compatible con el modelo de entrenamiento de pérdida SoftDTW!
2021/04/09 ~~Rama de Wavegan (eliminada)~~ ¡Proporciona Vocoder Melgan PWG/Melgan/Multiband!
2021/04/05 Soporte ParallelText2mel + Melgan Vocoder!
[Información clave] Indicadores de velocidad, muestras sintéticas, demostraciones web, algunas preguntas, bienvenido a comunicarse ...

Estructura de directorio

 .
|--- config/      # 配置文件
     |--- default.yaml
     |--- ...
|--- datasets/    # 数据处理
|--- encoder/     # 声纹编码器
     |--- voice_encoder.py
     |--- ...
|--- helpers/     # 一些辅助类
     |--- trainer.py
     |--- synthesizer.py
     |--- ...
|--- logdir/      # 训练过程保存目录
|--- losses/      # 一些损失函数
|--- models/      # 合成模型
     |--- layers.py
     |--- duration.py
     |--- parallel.py
|--- pretrained/  # 预训练模型（LJSpeech 数据集）
|--- samples/     # 合成样例
|--- utils/       # 一些通用方法
|--- vocoder/     # 声码器
     |--- melgan.py
     |--- ...
|--- wandb/       # Wandb 保存目录
|--- extract-duration.py
|--- extract-embedding.py
|--- LICENSE
|--- prepare-dataset.py  # 准备脚本
|--- README.md
|--- README_en.md
|--- requirements.txt    # 依赖文件
|--- synthesize.py       # 合成脚本
|--- train-duration.py   # 训练脚本
|--- train-parallel.py

Muestra sintética

Vea algunos ejemplos sintéticos aquí.

Pre-entrenamiento

Aquí se muestran algunos modelos previamente capacitados.

Empezar rápidamente

Paso (1) : clonación del repositorio

$ git clone https://github.com/atomicoo/ParallelTTS.git

Paso (2) : Instalar dependencias

$ conda create -n ParallelTTS python=3.7.9
$ conda activate ParallelTTS
$ pip install -r requirements.txt

Paso (3) : pronunciación sintética

$ python synthesize.py 
  --checkpoint ./pretrained/ljspeech-parallel-epoch0100.pth 
  --melgan_checkpoint ./pretrained/ljspeech-melgan-epoch3200.pth 
  --input_texts ./samples/english/synthesize.txt 
  --outputs_dir ./outputs/

Si desea sintetizar voces en otros idiomas, debe especificar el archivo de configuración correspondiente a través de --config .

Cómo entrenar

Paso (1) : Prepare los datos

$ python prepare-dataset.py

El archivo de configuración se puede especificar a través de --config , y el predeterminado default.yaml es para el conjunto de datos LJSPEECH.

Paso (2) : capacitar el modelo de alineación

$ python train-duration.py

Paso (3) : duración de la extracción

$ python extract-duration.py

--ground_truth se puede usar para especificar si el espectro de verdad en tierra se genera utilizando el modelo de alineación.

Paso (4) : entrenando el modelo sintético

$ python train-parallel.py

--ground_truth se puede usar para especificar si se utiliza el espectro de verdad en tierra para el entrenamiento de modelos.

Registro de entrenamiento

Si usa TensorBoardX, ejecute el siguiente comando:

 $ tensorboard --logdir logdir/[DIR]/

Wandb (Peso y prejuicios) es muy recomendable, solo agregue la opción --enable_wandb al comando de entrenamiento anterior.

Conjunto de datos

LJSpeech: inglés, mujer, 22050 Hz, aproximadamente 24 horas
Librispeech: inglés, múltiple altavoz (solo trenes-limpieza-100 parte), 16000 Hz, total aproximadamente 1000 horas
JSUT: japonés, mujer, 48000 Hz, aproximadamente 10 horas
Biaobei: mandarín, mujer, 48000 Hz, aproximadamente 12 horas
KSS: coreano, mujer, 44100 Hz, aproximadamente 12 horas
RULS: ruso, múltiple altavoz (solo audio de un solo bocete), 16000 Hz, total aproximadamente 98 horas
Twlspeech (no pública, mala calidad): tibetana, mujer (más altavoces, tono similar), 16000 Hz, aproximadamente 23 horas

Evaluación de calidad

TODO: para ser complementado

Métricas de velocidad

Velocidad de entrenamiento : para el conjunto de datos LJSpeech, configure el tamaño del lote en 64, y puede entrenar en una sola tarjeta gráfica de 8 GB GTX 1080. Después del entrenamiento ~ 8H (~ 300 épocas), puede sintetizar voces de alta calidad.

Velocidad de síntesis : las siguientes pruebas se realizan en CPU @ Intel Core i7-8550U / GPU @ Nvidia GeForce MX150, cada segmento de audio sintetizado es de aproximadamente 8 segundos (aproximadamente 20 palabras)

Tamaño por lotes	Especulación (GPU)	Audio (GPU)	Especulación (UPC)	Audio (UPC)
1	0.042	0.218	0.100	2.004
2	0.046	0.453	0.209	3.922
4	0.053	0.863	0.407	7.897
8	0.062	2.386	0.878	14.599

Tenga en cuenta que no se realizaron múltiples pruebas para obtener el promedio, y los resultados son solo de referencia.

Algunas preguntas

En la rama de Wavan, vocoder se toma de Parallelwavegan. Debido a los métodos de extracción de características acústicas incompatibles, es necesario convertir. Vea aquí el código de conversión específico.
La entrada de texto del modelo de mandarina selecciona la secuencia de pinyin, porque la secuencia original de Pinyin de Biaobei no contiene puntuación y el modelo de alineación no está completamente entrenado, por lo que el ritmo del habla sintética será un poco problemática.
El modelo coreano no capacita específicamente al vocoder correspondiente, pero usa el vocoder LJSPeech (también 22050 Hz), lo que puede afectar ligeramente la calidad del habla sintética.