Последняя модель синтеза голоса Sesame «Модель разговорной речи» (CSM) недавно вызвала жаркую дискуссию на платформе X и известна как «модель голоса, которая похожа на настоящего человека». Благодаря своей удивительной природе и способности эмоционального выражения, эта модель не только заставляет пользователей «больше не может отличать« отличия от людей, но также утверждает, что успешно пересекает «сверхъестественный эффект долины» в области голоса. С распространением демонстрационных видео и отзывов пользователей CSM быстро становится новым эталоном для технологии Voice AI.

Пересечение «Долины подземного мира»: технологический прорыв CSM
«Эффект долины долины» относится к неудобствам человеческого дискомфорта, когда искусственно синтезированный голос или изображение близки к реальным людям, но все еще существуют тонкие различия. Sesame решает эту проблему в лоб через свою модель CSM. X User @Imxiaohu опубликовал 1 марта: «Братья, эта новая модель голоса удивительна и больше не может быть различена!» Он указал, что CSM обладает отличной производительности в личности, памяти, способности выражения и контекстуальной уместности, почти устраняя механическое ощущение традиционных голосовых помощников.
В официальной исследовательской статье команда Sesame заявила, что целью CSM является достижение «присутствия голоса», что делает голосовые взаимодействия не только истинные и заслуживающие доверия, но и понимать и цениться. Этот прорыв связан с его основными компонентами: эмоциональным интеллектом (интерпретация и реакция на эмоции), контекстная память (корректировка вывода на основе истории диалога) и технологии генерации голоса с высокой точностью. Во время демонстрации CSM продемонстрировал естественный тон и эмоциональную сторону в ультра-длинной беседе, и пользователи даже не могли различить его как AI, не зная об этом.

Реалистичный пользовательский опыт
Отзывы пользователей на платформе X дополнительно подтверждают удивительную производительность CSM. @Imxiaohu поделился очень длинной демонстрацией диалога в этом посте, охватывающем различные сцены и сценарии, и оплакивал: «Тон и эмоции очень, очень близки к людям в некоторых выражениях, хахахаха». Он упомянул, что в отсутствие подсказок результаты этой модели затрудняли различие между истинными и ложными. Другой пользователь @leeoxiang сказал 1 марта, что он практиковал говорить по -английски с CSM в течение получаса, и почти не было задержки. Он сказал, что его «костюмие сделано очень хорошо, и в нем будет какой -то тон», и его способность активно говорить также впечатляет.
Энтузиазм сообщества не ограничивается похвалой. Многие пользователи отмечают, что беглость диалога CSM и эмоциональное выражение превзошли существующие основные модели, такие как голосовой режим OpenAI CHATGPT. @OP7418 рекомендовал, чтобы исследователи обратили внимание на технические статьи SESAME 28 февраля и подчеркнули свою уникальную систему оценки подлинности голоса, показывая техническую строгость модели.
Все еще место для улучшения: планы на будущее Sesame
Несмотря на шокирующее представление CSM, Sesame официально признал, что это не конец. @imxiaohu цитировал официальное заявление и сказал: «Это не самое идеальное, все еще есть много возможностей для улучшения!» В настоящее время CSM поддерживает несколько языков, таких как английский, но, как отметил @leeoxiang, китайцы еще не поддерживаются. Кроме того, некоторые пользователи обнаружили в тесте, что производительность модели в определенных контекстах (например, переключение иностранных языков или пение музыки) по -прежнему имеет место для улучшения.
Sesame пообещал открыть некоторые из своих результатов исследований, а его страница Github (Sesameailabs/CSM) показывает, что CSM будет лицензироваться в соответствии с Apache2.0. Этот шаг вызвал ожидания со стороны сообщества разработчиков, и многие люди надеются дальше способствовать развитию голосового ИИ посредством глубоких исследований по ее архитектуре.
Влияние отрасли и перспективы
Дебют CSM является не только техническим ответом на «эффект Unortal Valley», но также устанавливает новый стандарт для голосового взаимодействия AI. По сравнению с Гроком, Клодом и другими моделями, CSM имеет особенно выдающиеся преимущества в режиме реального времени, низкой задержки и эмоционального выражения. X Пользователь @ablegpt сказал 2 марта: «Если вы изучаете AI Voice, настоятельно рекомендуется прочитать эту статью». Это отражает вдохновляющее значение CSM для технологического круга.
Ожидается, что с планированием Sesame для расширения языковой поддержки и оптимизации моделей CSM будет сиять в таких областях, как образование, развлечения и виртуальные спутники. Судя по энтузиазму ответа на X, эти «братья думают, что это удивительная» голосовая модель переопределяет то, как люди взаимодействуют с ИИ с реалистичным диалогом. В будущем он может полностью устранить «странную долину» и стать настоящим «цифровым партнером»? Ответ может быть в следующей итерации кунжута.
Пробной адрес: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo