В последние годы технология виртуальных аватаров искусственного интеллекта быстро развивалась, но ее интерактивность по-прежнему остается ключевым узким местом, ограничивающим ее применение. Многие виртуальные аватары ИИ ведут себя скованно в разговорах, лишены реализма и не могут обеспечить естественное взаимодействие с пользователями. С этой целью была создана новая технология под названием INFP. Она направлена на решение проблемы недостаточного взаимодействия между нынешними виртуальными аватарами AI в разговорах двух человек, позволяя виртуальным персонажам выражать эмоции и действия так же естественно и плавно, как реальные люди во время разговора. разговор Полностью меняйте опыт взаимодействия человека с компьютером.
В последнее время широкое внимание привлекла новая технология под названием INFP (Interactive, Natural, Flash и Person-generic). Эта технология направлена на решение проблемы недостаточного взаимодействия между нынешними виртуальными аватарами ИИ в разговорах двух человек, позволяя виртуальным персонажам взаимодействовать во время разговоров как реальные люди, динамически корректируя свои выражения и движения в соответствии с содержанием разговора.

Попрощайтесь со «стендап-комедией» и поприветствуйте «двойной припев»
В прошлом ИИ-аватары могли разговаривать только сами с собой, как актер «стендап-комика», или же могли только тупо слушать без какой-либо обратной связи, как «деревянный человек». Однако наши человеческие разговоры не такие! Когда мы разговариваем, мы смотрим друг на друга, киваем, хмуримся и даже время от времени шутим. Это настоящее взаимодействие!
Появление INFP призвано полностью изменить эту неловкую ситуацию! Он похож на дирижера «двойного хора», который может динамически корректировать выражения и движения аватара ИИ на основе звука разговора между вами и ИИ, заставляя вас чувствовать себя как Это похоже на разговор с реальным человеком!
«Уникальные секреты» INFP: два трюка, один незаменим!
Причина, по которой INFP настолько мощна, в основном связана с его двумя «уникальными секретами»:
Имитация головы на основе движения:
Сначала он будет изучать человеческие выражения и движения по большому количеству реальных видеороликов разговоров, подобно «мастеру имитации действий», сжимая это сложное поведение в «коды действий».
Чтобы сделать движения более реалистичными, особое внимание будет уделяться двум «выражениям» глаз и рта, как если бы они были «крупными планами».
Он также будет использовать ключевые точки лица для создания выражений лица и обеспечения точности и естественности движений.
Затем он применяет эти «коды действий» к статическому аватару, мгновенно делая аватар «живым», как по волшебству!
Генерация движения с аудиоуправлением:
Этот «генератор» еще более мощный. Он может понимать звук разговора между вами и ИИ, как мастер, который может «определить местоположение, слушая звук».
Он будет анализировать, кто говорит и кто слушает аудио, а затем динамически корректировать состояние ИИ-аватара, чтобы он мог свободно переключаться между «говорением» и «слушанием» без переключения ролей вручную.
Он также оснащен двумя «банками памяти», в которых хранятся различные действия при «говорении» и «слушании» соответственно, точно так же, как две «шкатулки с сокровищами», позволяющие в любой момент извлечь наиболее подходящие действия.
Он также может регулировать настроение и поведение ИИ-аватара в соответствии со стилем вашего голоса, делая разговор более живым и интересным.
Наконец, он также использует технологию под названием «модель диффузии», чтобы превратить эти движения в плавную и естественную анимацию, чтобы вы не чувствовали никаких задержек.
DyConv: Огромный набор данных о разговорах, полный «сплетен»!
Чтобы обучить INFP, «суперИИ», исследователи также специально собрали очень большой набор данных о разговорах под названием DyConv!
В этом наборе данных более 200 часов видео разговоров. Люди в нем приезжают со всего мира, и содержание разговоров также разнообразно. Это просто «концлагерь сплетен».
Качество видео набора данных DyConv очень высокое, благодаря чему лица каждого человека хорошо видны.
Исследователи также использовали самую совершенную модель разделения речи, чтобы извлечь голос каждого человека отдельно, чтобы облегчить обучение ИИ.
«Восемнадцать боевых искусств» INFP: Вы можете не только говорить, но и...
INFP может не только проявить свои таланты в беседах между двумя людьми, но и проявить себя в других сценариях:
Режим «Слушающая голова»: он может делать соответствующие выражения и действия в зависимости от того, что говорит другая сторона, точно так же, как хороший ученик, который «внимательно слушает».
Режим «Генерация говорящей головы»: он может заставить аватара создавать реалистичные формы рта на основе звука, как мастер «чревовещателя».
Чтобы доказать силу INFP, исследователи провели большое количество экспериментов, и результаты показали:
По различным показателям INFP обогнал другие подобные методы, такие как качество видео, синхронизация губ и разнообразие действий, и добился отличных результатов.
Что касается пользовательского опыта, участники также согласились, что видео, созданное INFP, более естественное и яркое и лучше соответствует звуку.
Исследователи также провели эксперименты по абляции, чтобы доказать, что каждый модуль INFP важен.
Адрес проекта: https://grisoon.github.io/INFP/
Прорыв в технологии INFP внес революционные изменения в интерактивный опыт виртуальных аватаров искусственного интеллекта, сделав его ближе к реальным методам человеческого взаимодействия. Ожидается, что в будущем технология INFP будет широко использоваться во многих областях, таких как виртуальные помощники, онлайн-образование и развлечения, предоставляя пользователям более естественный, яркий и захватывающий интерактивный опыт.