Это внедрение TensorFlow Deep Voice 3: 2000-й дивикер-нейронного текста в речь. На данный момент мы просто сосредотачиваемся на синтезе единого динамика.
Набор данных речи LJ
Загрузите и расслабляйте набор данных речи LJ. Бегать:
python prepro.py
Примечание. Убедитесь, что мы расстегнули набор данных в одну и ту же фольров prepro.py .
После этого мы получили бы три новых папки:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
Данные обучения загружаются из ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags в качестве дефолта. Если мы хотим изменить путь загрузки, мы могли бы изменить конфигурацию в class Hyperparams .
Чтобы тренировать модель, мы используем эту команду:
python train.py
В настоящее время мы не можем получить хороший результат. Тем не менее, мы все еще предоставляем нашу предварительно обученную модель на случай, если кто-то заинтересован в этом.
Предварительно обученная модель.
Его внимание фигура заключается в следующем:
Все цифры внимания, полученные при обучении, включены в предварительно обученную модель.
Большая часть кода заимствована из Kyubyong/deepvoice3.