Скачать gmvae_tacotron - gmvae_tacotron SUSTERCOD CODE Скачать

gmvae_tacotron

AI Исходный код

1.0.0

Скачать

Gmvae Tacotron-2:

Tensorflow Неофициальная реализация иерархического генеративного моделирования для управляемого синтеза речи

Структура хранилища:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

Предыдущее дерево показывает, что текущее состояние репозитория.

Шаг (0) : Получите свой набор данных, здесь я установил примеры LJSPEECH .
Шаг (1) : предварительно обрабатывать ваши данные. Это даст вам папку Training_data .
Шаг (2) : Обучите свою такотронную модель. Дает папку журналов-такотрон .
Шаг (3) : синтезировать/оценить такотронную модель. Дает папку tacotron_output .

Требования

Во -первых, вам нужно установить Python 3.5 вместе с Tensorflow v1.6.

Далее вы можете установить требования:

PIP установка -R TEDS.TXT

еще:

PIP3 Установка -R Требования.txt

Набор данных:

Этот репо протестирован на наборе данных LJSPEECH, который имеет почти 24 часа маркированной голосовой записи одной актрисы.

Предварительная обработка

Перед выполнением следующих шагов, пожалуйста, убедитесь, что вы находитесь в папке Tacotron-2

CD Tacotron-2

Предварительная обработка может быть запущена:

Python preprocess.py

или

python3 preprocess.py

Набор данных можно выбрать с использованием аргумента -dataset . По умолчанию LJSPEECH .

Обучение:

Модель прогнозирования функций может быть обучена с помощью:

python train.py -model = 'tacotron'

или

python3 train.py -model = 'tacotron'

Синтез

Существует три типа синтеза спектрограмм MEL для сети прогнозирования спектрограмм (Tacotron):

Оценка (синтез на пользовательских предложениях). Это то, что мы обычно будем использовать после полной модели конец в конце.

python synthesize.py -model = 'tacotron' -mode = 'eval' -reference_audio = 'ref_1.wav'

или

python3 synthesize.py -model = 'tacotron' -mode = 'eval' -reference_audio = 'ref_1.wav'

Примечание:

Эта реализация не полностью протестирована для всех сценариев, а обучение и синтез со ссылкой на аудио.
Хотя он тестируется только на синтезе без GTA и с режимом eval .
После обучения 250K шаг с 32 размера партии на LJSPEECH, ошибка KL Settled Riea To Zero (около 0,001) по -прежнему не получает хорошего переноса и контроля стиля, может быть связана с тем, что эта модель, обученная на LJSPEECH, которая не является довольно выразительным набором данных и имеет только 24 часа данных, это может привести к хорошему результату на высказывании DataSet Blizzard 2013 voice dataset DataSet, хотя автора, используется в бумаге, используемый 105 -HR.
В моем тестировании у меня до сих пор не получаю хороших результатов на стороне передачи стиля, которые могут быть более необходимыми, эта реализация легко интегрирована с wavenet , а также WaveRNN .
Не стесняйтесь предлагать некоторые изменения или даже лучше поднять PR.

Предварительная модель и образцы:

Тодо

Ссылки и ресурсы:

Tensorflow Оригинальная реализация такотрона
Оригинальная такотронная бумага
Основанные на внимании модели распознавания речи
Естественный синтез TTS путем кондиционирования Wavenet на предсказаниях Spectogram Mel Spectogram
R9y9/Tacotron-2
Yanggeng1995/vae_tacotron

Работа в процессе

Расширять

Дополнительная информация