Implementação de um modelo convolucional de texto em fala baseado em seq2seq com base em Tachibana et. al. (2017). Dada uma sequência de caracteres, o modelo prevê uma sequência de quadros de espectrograma em dois estágios (text2mel e ssrn).
Conforme discutido no relatório, podemos obter qualidade de áudio razoavelmente decente com o Text2mel treinado para 60k etapas, SSRN para 100 mil etapas. Isso corresponde a cerca de (6+12) horas de treinamento em uma única GPU do Tesla K80 no conjunto de dados de fala do LJ.
Modelo pré-treinado : [download] Amostras : [Modelo-Base-M4] [não supervisionado-Decoder-M1]
Para mais detalhes, consulte: Papel de pôster
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
Execute cada arquivo com python <script_file>.py -h para ver os detalhes do uso.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(Da SRC/ init .