speaker_adapted_tts скачать - speaker_adapted_tts исходный код скачать

speaker_adapted_tts

AI Исходный код

1.0.0

Скачать

Создание модели TTS с 1 минутами речевых образцов в течение 10 минут

Видя мои реализации такотрон и DCTT, многие люди спрашивали меня: «Как нужен большой набор данных для нейронных ТТ?» Или "Можете ли вы сделать модель TTS с x Hour (ы)/минуты (ы) учебных данных?" Я полностью осознаю важность этих вопросов. Когда вы планируете сервис с использованием TTS, он вряд ли получит много образцов речи. Я хотел бы дать ответ. Я действительно делаю. Но, к сожалению, у меня нет ответа. Единственное, что я знаю, это то, что я мог бы успешно обучить модель с пятью часами речевых образцов, которые я извлекла из аудиокниги Кейт Уинслет. Я не пробовал меньше данных, чем это. Я мог бы попробовать это, но на самом деле у меня есть лучшая идея. Поскольку у меня есть приличная модель, обученная набором данных речи LJ в течение нескольких дней, почему я не использую ее? В конце концов, у всех нас разные голоса, но то, как мы говорим по -английски, не совсем другое.

В двух вышеупомянутых репо, я обучил модели TTS, используя все речевые образцы двух моих любимых знаменитостей, Ника Оффермана и Кейт Уинслет с нуля. На этот раз я использую только одну минуту речевых образцов. Ниже приведены синтезированные образцы после 10 минут тренировки с тонкой настройкой. Как вы думаете, они звучат как они?