cs224n gpu that talks скачать - cs224n gpu that talks о загрузке исходного кода

cs224n gpu that talks

AI Исходный код

1.0.0

Скачать

Внимание, я пытаюсь говорить: синтез сквозного речи (CS224N '18)

Внедрение модели текста в речь на основе SEQ2SEQ на основе Tachibana et. ал. (2017). Учитывая последовательность символов, модель предсказывает последовательность кадров спектрограммы на двух этапах (Text2MEL и SSRN).

Как обсуждалось в отчете, мы можем получить довольно приличное качество звука с Text2MEL, обученным для 60 тысяч шагов, SSRN для 100K шагов. Это соответствует около (6+12) часам обучения на одном графическом процессоре Tesla K80 в наборе данных речи LJ.

Предварительная модель : [Скачать] Образцы : [Base-Model-M4] [неконтролируемый декодер-M1]

Для получения более подробной информации см.: Poster Paper

Использование:

Структура каталога

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

Файлы сценариев

Запустите каждый файл с помощью python <script_file>.py -h чтобы увидеть детали использования.

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

Записные книжки:

Оценка : запускает прогнозы модели по всем наборам обучения и валидации для различных сохраненных модельных контрольных точек и сохраняет окончательные результаты.
Демонстрация : интерактивно введите входные предложения и прослушайте сгенерированный выходной аудио.

Дальше:

Обучение на разных языках с меньшим количеством данных доступного данных индийских языков
Изучение использования полупроницаемых методов для ускорения обучения, используя предварительно обученную «аудиоязычную модель» в качестве инициализации

Внешний код ссылки:

(Из кода утилиты SRC/ init .py) был ссылается из следующих источников, все другие коды являются собственным автором:

src/data_load.py, dsp_utils.py (с модификациями)
https://www.github.com/kyubyong/dc_tts, (Автор: Kyubyong Park, @kyubyong) https://github.com/r9y9/deepvoice3_pytorch/blob/master/audio.py (Автор: @r9y9)
src/spsi.py (ссылка)
https://github.com/lonce/spsi_python (Автор: @lonce)
src/utils.py (ссылка)
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/layers/common.py.py

Расширять

Дополнительная информация