Билибили недавно выпустил модель текста в речь под названием «Индексты». Эта модель основана на XTT и технологии черепахи и принимает архитектуру в стиле GPT. При обработке китайского текста эта инновационная система имеет уникальную функцию произношения китайского характера коррекции китайского характера и может точно управлять паузами в любом положении с помощью знаков препинания. Внедрение этой технологии делает эффект текста в речь более естественным и плавным, значительно улучшая пользовательский опыт и привлекает широкое внимание.
После десятков тысяч часов обучения данных система Indextts достигла лидерства отрасли в результате производительности, превосходя текущие популярные системы TTS, такие как XTTS, Cosyvoice2, Fish-Speek и F5-TTS. Многочисленные модули системы были глубоко оптимизированы, особенно со значительными улучшениями в условном представлении признаков динамиков и качеством звука. Внедряя гибридное моделирование, Indextts может быстро исправить неправильно прочитать китайские символы, еще больше улучшая пользовательский опыт.
Модель принимает новейший условный энкодер и голосовой декодер на основе BigVGAN2, который не только улучшает стабильность обучения, но и повышает сходство и качество звука звука. Команда R & D заявила, что они представили соответствующие документы на ARXIV и планируют выпустить параметры и код модели в ближайшие несколько недель. Кроме того, Indextts также предоставляет различные наборы тестов, в том числе многоразовые словарь и субъективные и объективные обзоры для углубленного анализа исследователями.
Indextts хорошо выполнялись в нескольких обзорах, особенно с точки зрения частоты ошибок Word (WER) и сходства динамиков (SS), которые превзошли многие модели сверстников. Например, в тестах мандарина частота ошибок слова Indextts составляла всего 1,3%, что намного ниже, чем производительность других моделей, показывая ее сильную точность и стабильность. В то же время, в оценке качества звука, оценка MOS Indextts также достигла 4,01, показав превосходное качество звука и тон.
Благодаря непрерывному развитию технологий и расширению сценариев применения, выпуск «Индикации» знаменует собой прогресс технологии текста в речь на более высокий уровень. Для получения дополнительной информации о системе пользователи могут связаться с соответствующей командой для получения подробного пользовательского опыта и технической поддержки.
Адрес проекта: https://github.com/index-tts/index-tts