Tensorflow Неофициальная реализация иерархического генеративного моделирования для управляемого синтеза речи
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
Предыдущее дерево показывает, что текущее состояние репозитория.
Во -первых, вам нужно установить Python 3.5 вместе с Tensorflow v1.6.
Далее вы можете установить требования:
PIP установка -R TEDS.TXT
еще:
PIP3 Установка -R Требования.txt
Этот репо протестирован на наборе данных LJSPEECH, который имеет почти 24 часа маркированной голосовой записи одной актрисы.
Перед выполнением следующих шагов, пожалуйста, убедитесь, что вы находитесь в папке Tacotron-2
CD Tacotron-2
Предварительная обработка может быть запущена:
Python preprocess.py
или
python3 preprocess.py
Набор данных можно выбрать с использованием аргумента -dataset . По умолчанию LJSPEECH .
Модель прогнозирования функций может быть обучена с помощью:
python train.py -model = 'tacotron'
или
python3 train.py -model = 'tacotron'
Существует три типа синтеза спектрограмм MEL для сети прогнозирования спектрограмм (Tacotron):
python synthesize.py -model = 'tacotron' -mode = 'eval' -reference_audio = 'ref_1.wav'
или
python3 synthesize.py -model = 'tacotron' -mode = 'eval' -reference_audio = 'ref_1.wav'
Примечание:
eval .Blizzard 2013 voice dataset DataSet, хотя автора, используется в бумаге, используемый 105 -HR.wavenet , а также WaveRNN .Тодо
Работа в процессе