13 марта Sesame официально выпустила свою последнюю модель синтеза голоса CSM, которая быстро привлекло широкое внимание отрасли. Согласно официальному введению, CSM принимает комплексную мультимодальную архитектуру обучения, основанную на трансформаторе, которая может глубоко понимать контекстную информацию и генерировать естественный и эмоциональный голос. Звуковые эффекты чрезвычайно реалистичны, почти такие же, как и настоящие люди, и это потрясающие.
Модель CSM не только поддерживает генерацию голоса в реальном времени, но и обрабатывает текстовый и аудио ввод. Пользователи могут настраивать параметры для управления такими характеристиками, как тон, тон, ритм и эмоции, демонстрируя чрезвычайно высокую гибкость. Эта персонализированная способность генерации голоса позволяет CSM хорошо работать в различных сценариях приложений.
CSM считается серьезным прорывом в области технологии Voice AI. Его произношение чрезвычайно естественно, и оно даже достигает уровня «неизвестного как искусственный синтез или реального человека». Некоторые пользователи записали видео, чтобы показать, что CSM почти не задерживает, и назвали его «самой сильной моделью, когда -либо испытываемой». Ранее Sesame открыл источник небольшой версии CSM-1B, которая поддерживает множество раундов диалога для генерации когерентного голоса, который получил широкую похвалу.
В настоящее время CSM в основном обучался английскому языку и очень хорошо выступал. Тем не менее, CSM по -прежнему имеет определенные ограничения с точки зрения многоязычной поддержки. В настоящее время модель не поддерживает китайский, но Sesame заявила, что ожидается, что в будущем она расширит свою языковую поддержку, чтобы удовлетворить потребности большего количества пользователей.
Sesame также сказал, что он открыт результаты своих исследований, решение, которое вызвало жаркие дискуссии среди разработчиков сообщества на Github. CSM подходит не только для разговорного ИИ, но также может способствовать инновациям в опыте голосового взаимодействия в таких областях, как образование и развлечения. Инсайдеры промышленности обычно считают, что CSM может изменить стандарты голосовых помощников ИИ и принести более естественный опыт диалога человека.