Descarga de AiVoice - Descargar el código fuente de AiVoice

AiVoice

Código Fuente de IA

1.0.0

Descargar

Voz profunda 3

Esta es una implementación de TensorFlow de Deep Voice 3: 2000-beater text-to speech. Por ahora, nos estamos centrando en la síntesis de un solo altavoz.

Requisito

Tensorflow> = 1.2
Python> = 3.0

Conjunto de datos

El conjunto de datos de discurso LJ

Preproceso

Descargue y descomprima el conjunto de datos de discurso LJ. Correr:

 python prepro.py

Nota: Asegúrese de que hayamos descomprimido el conjunto de datos en el mismo Foler de prepro.py .

Después de esto, obtendríamos tres nuevas carpetas:

 ├── dones          [New]
├── mags           [New]
├── mels           [New]
├── metadata.csv
├── README
└── wavs

Capacitación

Los datos de entrenamiento se cargan desde ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags como predeterminado. Si queremos cambiar la ruta de carga, podríamos cambiar la configuración en class Hyperparams .

Para entrenar el modelo, usamos este comando:

 python train.py

Modelo previamente capacitado

Actualmente, no podemos obtener buenos resultados. Sin embargo, todavía proporcionamos nuestro modelo previamente capacitado en caso de que alguien esté interesado en él.

Modelo previamente capacitado.

Su figura de atención es la siguiente:

Todas las cifras de atención generadas en la capacitación se incluyen en el archivo con cremallera modelo previamente capacitada.

Descripción del archivo

Hyperparams.py: Parámetros Hyper
Prepro.py: Crea entradas y objetivos, es decir, espectrograma MEL, magnitud y dones.
data_load.py
utils.py: varias funciones operativas personalizadas.
MODULOS.PY: bloques de construcción para las redes.
Networks.py: codificador, decodificador y convertidor
Train.py: Train
synthesize.py: inferencia
test_sents.txt: algunas oraciones de prueba en el documento.