Implementación de un modelo de texto a voz basado en SEQ2SEQ convolucional basado en Tachibana ET. Alabama. (2017). Dada una secuencia de caracteres, el modelo predice una secuencia de marcos de espectrograma en dos etapas (Text2Mel y SSRN).
Como se discutió en el informe, podemos obtener una calidad de audio bastante decente con Text2Mel capacitado para 60k pasos, SSRN para 100k pasos. Esto corresponde a aproximadamente (6+12) horas de entrenamiento en un solo GPU Tesla K80 en el conjunto de datos de discurso LJ.
Modelo previo a la aparición : [Descargar] Muestras : [Base-Modelo-M4] [Decodificador sin supervisión-M1]
Para más detalles, consulte: Documento de carteles
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
Ejecute cada archivo con python <script_file>.py -h para ver los detalles de uso.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(De SRC/ init .py) Se ha hecho referencia al código de utilidad de las siguientes fuentes, todo el otro código es el propio del autor: