Внедрение модели текста в речь на основе SEQ2SEQ на основе Tachibana et. ал. (2017). Учитывая последовательность символов, модель предсказывает последовательность кадров спектрограммы на двух этапах (Text2MEL и SSRN).
Как обсуждалось в отчете, мы можем получить довольно приличное качество звука с Text2MEL, обученным для 60 тысяч шагов, SSRN для 100K шагов. Это соответствует около (6+12) часам обучения на одном графическом процессоре Tesla K80 в наборе данных речи LJ.
Предварительная модель : [Скачать] Образцы : [Base-Model-M4] [неконтролируемый декодер-M1]
Для получения более подробной информации см.: Poster Paper
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
Запустите каждый файл с помощью python <script_file>.py -h чтобы увидеть детали использования.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(Из кода утилиты SRC/ init .py) был ссылается из следующих источников, все другие коды являются собственным автором: