Descargar DiffGAN TTS - Descargar el código fuente de DiffGAN TTS

DiffGAN TTS

Código Fuente de IA

1.0.0

Descargar

Diffgan -TTS - Implementación de Pytorch

Implementación de Pytorch de Diffgan-TTS: alta fidelidad y texto a voz eficiente con Gans de difusión de renovación

Estado de repositorio

Versión ingenua de Diffgan-TTS
Mecanismo de difusión poco profunda activa: Diffgan-TTS (dos etapas)

Muestras de audio

Las muestras de audio están disponibles en /demostración.

Inicio rápido

El conjunto de datos se refiere a los nombres de conjuntos de datos como LJSpeech y VCTK en los siguientes documentos.

El modelo se refiere a los tipos de modelo (elija entre ' ingenuo ', ' aux ', ' superficial ').

Dependencias

Puede instalar las dependencias de Python con

 pip3 install -r requirements.txt

Inferencia

Tienes que descargar los modelos previos a la aparición y ponerlos en

output/ckpt/DATASET_naive/ para el modelo ' ingenuo '.
output/ckpt/DATASET_shallow/ para el modelo ' Shallow '. Tenga en cuenta que el punto de control del modelo ' poco profundo ' contiene modelos ' superficiales ' y ' aux ', y estos dos modelos compartirán todos los directorios, excepto los resultados en todo el proceso.

Para un TTS de un solo hablante , ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET

Para un TTS de múltiples altavoces , ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

El diccionario de los altavoces aprendidos se puede encontrar en preprocessed_data/DATASET/speakers.json , y las expresiones generadas se colocarán en output/result/ .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --model MODEL --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todas las expresiones en preprocessed_data/DATASET/val.txt .

Controlabilidad

La tasa de tono/volumen/habla de las expresiones sintetizadas se puede controlar especificando las relaciones de tono/energía/duración deseadas. Por ejemplo, uno puede aumentar la tasa de habla en un 20 % y disminuir el volumen en un 20 % en

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Tenga en cuenta que la capacidad de control se origina en FastSpeech2 y no es un interés vital de Diffgan-TTS.

Capacitación

Conjuntos de datos

Los conjuntos de datos compatibles son

LJSPEECH: un conjunto de datos en inglés de un solo hablador consta de 13100 clips de audio cortos de una altavoz femenina que lee pasajes de 7 libros de no ficción, aproximadamente 24 horas en total.
VCTK: El corpus CSTR VCTK incluye datos del habla pronunciados por 110 hablantes de inglés ( TTS de múltiples altavoces ) con varios acentos. Cada orador lee alrededor de 400 oraciones, que fueron seleccionadas de un periódico, el pasaje del arco iris y un párrafo de obtención utilizado para el archivo de acento del habla.

Preprocesamiento

Para un TTS de múltiples altavoces con un incrustador de altavoces externo, descargue el modelo de retraso previo al petróleo rescnn Softmax+de Filipperemy's DeepSpeaker para la incrustación del altavoz y lo ubique ./deepspeaker/pretrained_models/
Correr
```
 python3 prepare_align.py --dataset DATASET
```
para algunos preparativos.
Para la alineación forzada, el alineador forzado de Montreal (MFA) se usa para obtener las alineaciones entre las expresiones y las secuencias de fonema. Aquí se proporcionan alineaciones preextracidas para los conjuntos de datos. Debe descomprimir los archivos en preprocessed_data/DATASET/TextGrid/ . Alternativamente, puede ejecutar el alineador usted mismo.
Después de eso, ejecute el script de preprocesamiento por
```
 python3 preprocess.py --dataset DATASET
```

Capacitación

Puede entrenar tres tipos de modelo: ' ingenuo ', ' aux ' y ' superficial '.

Entrenamiento de la versión ingenua (' ingenuo '):
Entrena la versión ingenua con
```
 python3 train.py --model naive --dataset DATASET
```
Entrenamiento Modelo acústico básico para la versión poco profunda (' Aux '):
Para entrenar la versión poco profunda, necesitamos un FastSpeech2 pre-entrenado. El siguiente comando le permitirá entrenar los módulos FastSpeech2, incluido el decodificador auxiliar (MEL).
```
 python3 train.py --model aux --dataset DATASET
```
Entrenamiento de la versión superficial (' superficial '):
Para aprovechar FastSpeech2 previamente entrenado, incluido el decodificador auxiliar (MEL), debe pasar --restore_step con el paso final del entrenamiento auxiliar de FastSpeech2 como el siguiente comando.
```
 python3 train.py --model shallow --restore_step RESTORE_STEP --dataset DATASET
```
Por ejemplo, si el último punto de control se guarda en 200000 pasos durante la capacitación auxiliar, debe configurar --restore_step con 200000 . Luego se cargará y congelará el modelo AUX y luego continuará el entrenamiento bajo el mecanismo de difusión poco profundo activo.

Tabla tensor

Usar

 tensorboard --logdir output/log/DATASET

para servir tensorboard en su localhost. Se muestran las curvas de pérdida, los espectrogramas MEL sintetizados y los audios.

Difusión ingenua

Difusión poco profunda

Notas

Además del decodificador de difusión, el adaptador de varianza también está condicionado a la información del altavoz.
La salida incondicional y condicional del discriminador JCU se promedia durante cada cálculo de pérdidas como lo hizo Vocgan.
Algunas diferencias en los datos y el preprocesamiento en comparación con el documento original:
- Uso de VCTK (109 altavoces) en lugar de mandarín chino de 228 altavoces.
- Después de la configuración de audio de Diffspeech, por ejemplo, la velocidad de muestreo es de 22050Hz en lugar de 24,000Hz.
- Además, después de la extracción y modelado de varianza de Diffspeech.
lambda_fm se fija a un valor Scala ya que el escalar a escala dinámica calculada como l_recon/l_fm hace que el modelo explote.
Dos opciones para integrar para la configuración de TTS de múltiples altavoces : entrenamiento de altavoces de altavoz desde cero o usando un modelo de brevepeaker de Philipperemy previamente capacitado (como lo hizo Styler). Puede alternar estableciendo la configuración (entre 'none' y 'DeepSpeaker' ).
Deepspeaker en el conjunto de datos VCTK muestra una identificación clara entre los oradores. La siguiente figura muestra la gráfica T-SNE de la incrustación de altavoces extraídos.

Citación

Cite este repositorio por el "cita este repositorio" de la sección Acerca de (arriba a la derecha de la página principal).

Referencias

Diffsinger de Keonlee9420
KEONLEE9420's Complial-Transformer-TTS
Lynnho 'dcgan-lsgan-wgan-gp-dragan-pytorch
Seungwonpark 'Melgan
Modelos probabilísticos de difusión de renovación
Abordar el trilema de aprendizaje generativo con Gans de difusión de renovación
Diffsinger: Síntesis de voz de canto a través del mecanismo de difusión poco profundo

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 123.48MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Información en inglés sobre desarrollo de voz (Guía del usuario TTS versión Delphi)

2009-05-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo