Descargar dctts pytorch - Descargar el código fuente dctts pytorch

dctts pytorch

Código Fuente de IA

1.0.0

Descargar

DC-TTS

La implementación de Pytorch del sistema de texto a voz de Eficiente y Tapa de PapAR basada en redes convolucionales profundas con atención guiada.

Gracias por Kyubyong/DC_TTS, lo que me ayudó mucho a superar algunas dificultades.

Conjunto de datos

El conjunto de datos de discurso LJ. Un conjunto de datos de discurso de dominio público que consta de 13.100 clips de audio cortos de una sola altavoz femenino.

Tren

He ajustado los parámetros hiper y entrenado un modelo con el conjunto de datos de discurso LJ. Los hiper parámetros pueden no ser los mejores y son ligeramente diferentes con los utilizados en el papel original.

Para entrenar un modelo usted mismo con el conjunto de datos de discurso LJ:

Descargue el conjunto de datos y extraiga en un directorio, establezca el directorio en pkg/hyper.py
Ejecutar preprocesos
```
 python3 main.py --action preprocess
```
Train Text2Mel Network, puede cambiar el dispositivo para entrenar Text2Mel en pkg/hyper.py
```
 python3 main.py --action train --module Text2Mel
```
CONTRICE SSRN Network, también es posible cambiar el dispositivo de entrenamiento
```
 python3 main.py --action train --module SuperRes
```

Muestras

Algunas muestras sintetizadas están contenidas en synthesis de directorio. Las oraciones según se enumeran en sentences.txt . El modelo previamente capacitado para Text2Mel y SuperRes (ahorro automático en logdir/text2mel/pkg/trained.pkg y logdir/superres/pkg/trained.pkg en fase de entrenamiento) se cargará al sintetizar.

Puede síntesis de muestras enumeradas en sentences.txt con

 python3 main.py --action synthesis

Matriz de atención para la oración: "¿Cuál fue primero ... el pollo o el huevo? ¿El universo tuvo un comienzo ... y si es así, ¿qué pasó antes de eso? ¿De dónde vino el universo ... y a dónde va?"

Modelo previamente capacitado

Las muestras en synthesis de directorio se muestrean con 410k lotes de text2mel y 190k Superres entrenados.

El resultado actual no es muy satisfactorio, específicamente, se omiten algunas vocales. Espero que alguien pueda encontrar mejores parámetros hiper y entrenar mejores modelos. Por favor, dígame si pudo obtener un gran modelo.

Puede descargar el modelo pre-entrenado actual de mi Dropbox.