Видя мои реализации такотрон и DCTT, многие люди спрашивали меня: «Как нужен большой набор данных для нейронных ТТ?» Или "Можете ли вы сделать модель TTS с x Hour (ы)/минуты (ы) учебных данных?" Я полностью осознаю важность этих вопросов. Когда вы планируете сервис с использованием TTS, он вряд ли получит много образцов речи. Я хотел бы дать ответ. Я действительно делаю. Но, к сожалению, у меня нет ответа. Единственное, что я знаю, это то, что я мог бы успешно обучить модель с пятью часами речевых образцов, которые я извлекла из аудиокниги Кейт Уинслет. Я не пробовал меньше данных, чем это. Я мог бы попробовать это, но на самом деле у меня есть лучшая идея. Поскольку у меня есть приличная модель, обученная набором данных речи LJ в течение нескольких дней, почему я не использую ее? В конце концов, у всех нас разные голоса, но то, как мы говорим по -английски, не совсем другое.
В двух вышеупомянутых репо, я обучил модели TTS, используя все речевые образцы двух моих любимых знаменитостей, Ника Оффермана и Кейт Уинслет с нуля. На этот раз я использую только одну минуту речевых образцов. Ниже приведены синтезированные образцы после 10 минут тренировки с тонкой настройкой. Как вы думаете, они звучат как они?
Кроме того, я собрал 10 речевых образцов современных семейных знаменитостей с YouTube и вызвал их голос, тренировавшись по этим образцам.
Проверьте здесь, чтобы увидеть данные модели, исходный код и предварительную модель, которая послужила семенем.