Descarga Parallel Tacotron2 - Descargar el código fuente Parallel Tacotron2

Parallel Tacotron2

Código Fuente de IA

1.0.0

Descargar

Tacotron2 paralelo

Implementación de Pytorch de Tacotron 2 paralelo de Google: un modelo TTS neural no autorgresivo con modelado de duración diferenciable

Actualizaciones

2021.05.25: Only the soft-DTW remains the last hurdle! Siguiendo el consejo del autor sobre la implementación, tomé varias pruebas en cada módulo una por una bajo una señal de duración supervisada con pérdida de L1 (FastSpeech2). Hasta ahora, puedo confirmar que todos los módulos, excepto Soft-DTW, funcionan bien de la siguiente manera (espectrograma sintetizado, espectrograma GT, alineación residual y W de Learnupsampling de arriba a abajo).
Para ver los detalles, consulte el último registro de confirmación y la sección de problemas de implementación actualizados. Además, puede encontrar los experimentos en curso en https://github.com/keonlee9420/fastspeech2/commits/ptaco2.
2021.05.15: Implementación realizada. Verificación de la cordura en la capacitación e inferencia. Pero aún así el modelo no puede converger.
I'm waiting for your contribution! Infórmeme si encuentra algún error en mi implementación o algún consejo valioso para capacitar al modelo con éxito. Consulte la sección Problemas de implementación.

Capacitación

Requisitos

Puede instalar las dependencias de Python con
```
pip3 install -r requirements.txt
```
Instale Fairseq (documento oficial, GitHub) para utilizar LConvBlock . Verifique el n. ° 5 para resolver cualquier problema en la instalación.

Conjuntos de datos

Los conjuntos de datos compatibles:

LJSPEECH: un conjunto de datos en inglés de un solo hablador consta de 13100 clips de audio cortos de una altavoz femenina que lee pasajes de 7 libros de no ficción, aproximadamente 24 horas en total.
(se agregará más)

Preprocesamiento

Después de descargar los conjuntos de datos, configure el corpus_path en preprocess.yaml y ejecute el script de preparación:

 python3 prepare_data.py config/LJSpeech/preprocess.yaml

Luego, ejecute el script de preprocesamiento:

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Capacitación

Entrena tu modelo con

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

El modelo aún no puede converger. ¡Estoy depurando, pero se aumentaría si tu increíble contribución está lista!

Inferencia

Para una sola inferencia, ejecute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 900000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Las expresiones generadas se guardarán en output/result/ .

Inferencia por lotes

También es compatible con la inferencia por lotes, intente

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 900000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Para sintetizar todas las expresiones en preprocessed_data/LJSpeech/val.txt .

Tabla tensor

Usar

 tensorboard --logdir output/log/LJSpeech

para servir tensorboard en su localhost.

Problemas de implementación

En general, la normalización o la activación, que no se sugiere en el documento original, está adecuadamente dispuesto para evitar el valor de NAN (gradiente) en los cálculos hacia adelante y hacia atrás. (Nan indica que algo está mal en la red)

Codificador de texto

Use el FFTBlock de FastSpeech2 para el bloque de transformador del codificador de texto.
Use la abandono 0.2 para el ConvBlock del codificador de texto.
Para restaurar el "motor de normalización patentado",
- Aplique la misma normalización de texto que en FastSpeech2.
- Implementar la función grapheme_to_phoneme . (Ver ./text/ init ).

Codificador residual

Use 80 channels de espectrogromo MEL en lugar de 128-bin .
La incrustación posicional sinusoidal regular se usa a nivel de marco en lugar de combinaciones de tres incrustaciones posicionales en tacotrón paralelo. Como el modelo depende completamente del aprendizaje no supervisado para la posición, esta elección puede ser una razón para el fallo en el modelo converge.

Predictor de duración y aprendizaje de muestreo

Use nn.SiLU() para la activación swish.
Al obtener W y C , la operación de concatenación se aplica entre S , E y V después del dominio del marco (dominio t) de transmisión de V .

Descifrador

Use LConvBlock y una incrustación posicional sinusoidal regular.
El espectrograma MEL iterativo se proyecta por una capa lineal.
Aplique nn.Tanh() a cada salida LConvBLock (después del patrón de activación de la parte del decodificador en FastSpeech2).

Pérdida

Use la optimización y el programador de FastSpeech2 (que es por la atención es todo lo que necesita como se describe en el documento original).
Base en Pytorch-Softdtw-Cuda (POST) para el Soft-DTW.
1. Implemente Soft-DTW personalizado en model/soft_dtw_cuda.py , reflejando la recursión sugerida en el documento original.
2. En el Soft-DTW original, la pérdida final no se supone y, por lo tanto, solo E se calcula. Pero empleado como una función de pérdida, se agrega producto jacobiano para devolver el derivado del objetivo de la entrada R WRT X .
3. Actualmente, el tamaño de lote máximo es de 8 en 24GIB GPU (Titan RTX) debido al problema de complejidad del espacio en la pérdida de DTW blando.
  - En el artículo original, se implementó una operación de banda diagonal diferenciable personalizada y se utilizó para resolver la complejidad de O (T^2), pero esta parte aún no se ha explorado en la implementación actual.

Citación

 @misc{lee2021parallel_tacotron2,
  author = {Lee, Keon},
  title = {Parallel-Tacotron2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Parallel-Tacotron2}}
}

Referencias

FastSpeech2 de Ming024 (más tarde de 2021.02.26 Ver.)
Tacotrón paralelo: TTS no autorregresivo y controlable
Tacotron paralelo 2: un modelo TTS neural no autorgresivo con modelado de duración diferenciable

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-20
tamaño 101.63MB
Proviene de Github

Aplicaciones relacionadas

golang parallel download with accept ranges

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo