Сегодня, благодаря быстрому развитию технологий, искусственный интеллект проник в каждый аспект нашей жизни. От интеллектуальных голосовых помощников до различных услуг автоматизации, ИИ меняет нашу жизнь беспрецедентным образом. Сегодня я хочу представить вам супер-крутой технологию-Spark-TTS, эффективную систему текста в речь, основанная на модели QWEN2.5. Это может не только «клонировать» ваш голос, но и «настраивать» новые звуки в соответствии с вашими потребностями! Разве это не звучит потрясающе?

Что такое Spark-TTS? Spark-TTS-это новая система текста в речь (TTS), а ее ядро-Bicodec-однопоточный голосовой кодек. Этот кодек может разложить речь на два дополнительных «токенах голоса»: один - семантический токен с низкой скоростью бита, используемый для захвата языкового содержания; Другим является глобальный токен с фиксированной длиной, используемый для захвата атрибутов динамика, таких как тон, тон и т. Д. Этот отдельный метод представления объединяет мощную языковую модель QWEN2.5 и метод генерации, называемый «мыслительная цепь» (COT), позволяя Spark-TTS достичь контроля от грубых зрителей (например, общий стиль, говорящий) до мелкозернистого (такого как точное значение, говорящее на скорости). Другими словами, вы можете использовать простые инструкции, чтобы Spark-TTS генерировал звук, который именно вы представляли!

«Super Powers» Spark-TTS «Что здорово в Spark-TTS»-это «супер-силы»-способность достичь клонирования звука с нулевым выстрелом. Это означает, что вам нужно только предоставить справочный аудио, а Spark-TTS может напрямую генерировать совершенно новый звук, и звук может быть отрегулирован точно так же, как вы хотите. Например, вы можете попросить создать звук «мужского, баса, медленного», и Spark-TTS может точно выполнить задачу. Это было почти невозможно раньше, но Spark-TTS сделал это!
Кроме того, Spark -TTS также имеет «секретное оружие» - Voxbox. Это тщательно курированный набор данных с открытым исходным кодом, со 100 000 часов голосовых данных, охватывающих аннотации различных атрибутов, таких как пол, высота и скорость речи. Этот набор данных обеспечивает стандартизированный эталон для исследований синтеза речи, что позволяет исследователям лучше проводить эксперименты и сравнения.
Технические детали Технические детали Spark-TTS могут показаться немного сложными, но я объясню это наиболее распространенным образом. Во-первых, Bicodec является ядром Spark-TTS, который преобразует голосовые сигналы в дискретные токены с помощью технологии, называемой «квантованием вектора» (VQ). Эти жетоны похожи на «цифровые отпечатки пальцев» голоса, которые можно понять и генерировать языковую модель. Затем Spark-TTS использует мощные возможности языковой модели QWEN2.5, чтобы объединить эти токены в полный речевой сигнал с помощью метода генерации «Think Chain».
В практических приложениях Spark-TTS имеет два рабочего режима: нулевой режим выборки и режим управляемого генерации. В нулевом режиме образца Spark-TTS может генерировать совершенно новый звук на основе эталонного звука; И в режиме управляемого генерации вы можете создать звук, который полностью соответствует вашим требованиям, указав теги атрибутов или конкретные значения. Например, вы можете попросить «женский, высокий, быстрый, быстрый» звук, и Spark-TTS может точно выполнить задачу.
Сценарии применения для практического применения Spark-TTS очень широки. Например, в области умных голосовых помощников Spark-TTS может генерировать персонализированный голос, основанный на предпочтениях пользователей, заставляя пользователей чувствовать, что они общаются с реальным человеком. В области аудиокниги Spark-TTS может генерировать различные стили звуков на основе текстового контента, что позволяет слушателям иметь более богатый слуховой опыт. Кроме того, Spark-TTS также можно использовать в исследованиях синтеза речи, помогая исследователям лучше понять и улучшить технологию синтеза речи.
Future Outlook Хотя Spark-TTS сделал большие прорывы, у него все еще есть некоторые вещи, чтобы улучшить. Например, в звуковых клонах с нулевым образцом сходство динамиков Spark-TTS необходимо улучшить. Кроме того, Spark-TTS в настоящее время не налагает дополнительных ограничений на развязку между глобальными токенами и семантическими токенами, что может повлиять на разнообразие и природу звука. Тем не менее, исследователи уже изучают новые способы решения этих проблем, такие как увеличение разнообразия и природы звука путем введения возмущений тона.
Spark-TTS-это очень многообещающая технология, которая не только обеспечивает клонирование звука с нулевой выборкой, но и генерирует совершенно новые звуки в соответствии с потребностями пользователей. Его внешний вид позволяет нам увидеть бесконечные возможности технологии синтеза речи. В будущем, с постоянным развитием технологий, ожидается, что Spark-TTS будет применяться в большем количестве областей, что приносит больше удобства и веселья в нашу жизнь.
Наконец, если вы заинтересованы в Spark-TTS, вы можете получить доступ к его открытому исходному коду и образцам аудио и испытать эту волшебную технологию для себя. Поверьте мне, это будет очень интересный опыт!
Проект и демонстрация: https://sparkaudio.github.io/spark-tts/
Github: https: //github.com/sparkaudio/spark-tts
Бумага: https://arxiv.org/pdf/2503.01710