Голосовые помощники постепенно становятся незаменимой частью нашей повседневной жизни. Тем не менее, существующие цифровые голосовые помощники часто кажутся скучными и не имеют эмоциональных и гуманных элементов при взаимодействии с пользователями. Чтобы решить это, команда SESAME работает над реализацией совершенно новой концепции «присутствия голоса», целью которой является сделать цифровые помощники более реалистичными, понятными и ценными в общении.

Основная цель Sesame - создать цифровой компаньон, а не просто инструмент для обработки запросов. Эти цифровые партнеры надеются постепенно создавать чувство доверия и уверенности в себе посредством взаимодействия с пользователями, чтобы пользователи могли испытывать более богатое и более глубокое общение в своей повседневной жизни. Чтобы достичь этого, команда SESAME сосредоточилась на нескольких ключевых компонентах, включая эмоциональный интеллект, разговорную динамику, контекстуальную осведомленность и последовательные черты личности.
Эмоциональный интеллект - это способность позволять голосовым помощникам понимать и реагировать на эмоциональные состояния пользователей. Это не только зависит от понимания голосовых команд, но и для того, чтобы воспринимать эмоциональные изменения в голосе и, таким образом, сделать более подходящую обратную связь. Во -вторых, динамика диалога подчеркивает естественный ритм, который должны иметь голосовые помощники во время процесса общения, включая своевременные паузы, подходящий акцент тона и прерывания и т. Д., Делая диалог более плавным и естественным.
Кроме того, контекст также имеет решающее значение. Это требует, чтобы голосовые помощники гибко скорректировали свой голос и стиль, основанный на контексте и истории разговора, чтобы соответствовать текущей ситуации. Эта возможность может сделать цифровые помощники в разных случаях, что повышает удовлетворенность пользователей. Наконец, последовательные черты личности означают, что голосовые помощники должны поддерживать относительно последовательную личность и стиль в различных разговорах, чтобы улучшить чувство доверия пользователей.
Тем не менее, нелегко достичь цели «голосового существования». Команда SESAME добилась прогресса в различных аспектах личности, памяти, выразительности и уместности. Недавно команда продемонстрировала некоторые экспериментальные результаты в диалоге речи, особенно с точки зрения дружелюбия и выразительности, полностью демонстрируя потенциал его метода.
На техническом уровне команда SESAME предложила новый подход под названием «Фонетическая модель диалога» (CSM) для устранения недостатков традиционной модели текста в речь (TTS). Этот подход использует архитектуру конвертеров и направлена на достижение более естественной и последовательной речевой генерации. CSM не только имеет дело с мультимодальным изучением текста и аудио, но также корректирует результаты на основе истории разговора, тем самым решая недостатки традиционных моделей в контекстном понимании.
Чтобы проверить эффект модели, команда SESAME использовала большое количество общественных аудиодабных данных для обучения и подготовленных образцов обучения посредством транскрипции, сегментации и т. Д. Они обучали модели различных размеров и достигли хороших результатов по объективным и субъективным показателям оценки, и, хотя модель в настоящее время близка к человеческому уровню с точки зрения естественности и адаптации произношения, она все еще необходима для улучшения в определенных ситуациях обема.
Судя по образцам, данным должностным лицом, сгенерированные произведения вряд ли могут слышать какие -либо компоненты искусственного интеллекта, что является супер реалистичным.
Команда Sesame планирует открыть свои исследования, чтобы сообщество могло участвовать в экспериментах и улучшении. Этот шаг не только помогает ускорить разработку AI диалога, но и надеется охватить больше сценариев применения путем расширения масштаба моделей и языковой поддержки. Кроме того, команда планирует изучить, как использовать предварительно обученные языковые модели, чтобы заложить основу для построения мультимодальных моделей.
Демонстрация проекта: https://www.sesame.com/research/crossing_the_uncny_valley_of_voice#demo
Ключевые моменты:
Команда SESAME стремится к достижению «присутствия голоса», чтобы цифровые помощники могли не только выполнять команды, но и иметь реальные разговоры.
Благодаряфонетической модели диалога (CSM) команда сделала новые прорывы в контекстном понимании и генерации речи.
Команда планирует результаты исследований с открытым исходным кодом и расширяет языковую поддержку для дальнейшего развития разговорного ИИ.