En los últimos años, la tecnología de avatar virtual de IA se ha desarrollado rápidamente, pero su interactividad sigue siendo un cuello de botella clave que restringe su aplicación. Muchos avatares virtuales de IA se comportan de manera rígida en las conversaciones, carecen de realismo y no pueden lograr una interacción natural con los usuarios. Con este fin, surgió una nueva tecnología llamada INFP que tiene como objetivo resolver el problema de la interacción insuficiente entre los avatares virtuales de IA actuales en conversaciones de dos personas, permitiendo que los personajes virtuales expresen emociones y acciones de forma tan natural y fluida como las personas reales durante las conversaciones. conversación. Cambie completamente la experiencia de interacción persona-computadora.
Recientemente, una nueva tecnología llamada INFP (Interactive, Natural, Flash and Person-generic) ha atraído una gran atención. Esta tecnología tiene como objetivo resolver el problema de la interacción insuficiente entre los avatares virtuales de IA actuales en conversaciones de dos personas, permitiendo que los personajes virtuales interactúen como personas reales durante las conversaciones, ajustando dinámicamente sus expresiones y movimientos según el contenido de la conversación.

Dile adiós al "stand-up Comedy" y dale la bienvenida al "doble coro"
En el pasado, los avatares de IA sólo podían hablar consigo mismos, como un actor de "comediante", o sólo podían escuchar estúpidamente sin ninguna respuesta, como una "persona de madera". Sin embargo, ¡nuestras conversaciones humanas no son así! Cuando hablamos, nos miramos, asentimos, fruncimos el ceño e incluso hacemos bromas de vez en cuando. ¡Esta es la verdadera interacción!
¡La aparición de INFP cambiará por completo esta situación vergonzosa! Es como un director de "doble coro", que puede ajustar dinámicamente las expresiones y movimientos del avatar de IA en función del audio de la conversación entre usted y la IA, ¡haciéndole sentir! ¡Es como hablar con una persona real!
Los “secretos únicos” de INFP: ¡dos trucos, uno es indispensable!
La razón por la que INFP es tan poderoso se debe principalmente a sus dos "secretos únicos":
Imitación de cabeza basada en movimiento:
Primero aprenderá expresiones y movimientos humanos a partir de una gran cantidad de vídeos de conversaciones reales, como un "maestro de la imitación de acciones", comprimiendo estos comportamientos complejos en "códigos de acción".
Para que los movimientos sean más realistas, también prestará especial atención a las dos "expresiones" de los ojos y la boca, como si les diera "primeros planos".
También utilizará puntos clave faciales para ayudar en la generación de expresiones para garantizar la precisión y naturalidad de los movimientos.
Luego, aplica estos "códigos de acción" a un avatar estático, haciendo que el avatar esté "vivo" instantáneamente, ¡como por arte de magia!
Generación de movimiento audioguiada:
Este "generador" es aún más poderoso. Puede comprender el audio de la conversación entre usted y la IA, como un maestro que puede "identificar la ubicación escuchando el sonido".
Analizará quién habla y quién escucha en el audio, y luego ajustará dinámicamente el estado del avatar de IA para que pueda cambiar libremente entre "hablar" y "escuchar" sin cambiar manualmente los roles.
También está equipado con dos "bancos de memoria" que almacenan diversas acciones al "hablar" y "escuchar" respectivamente, al igual que dos "cajas de tesoros" para extraer las acciones más adecuadas en cada momento.
También puede ajustar el estado de ánimo y la actitud del avatar de IA según su estilo de voz, haciendo que la conversación sea más animada e interesante.
Finalmente, también utiliza una tecnología llamada "modelo de difusión" para convertir estos movimientos en animaciones suaves y naturales para que no sientas ningún retraso.
DyConv: ¡Un enorme conjunto de datos de conversaciones lleno de "chismes"!
Para entrenar INFP, la "súper IA", los investigadores también recopilaron especialmente un conjunto de datos de conversación muy grande llamado DyConv.
Hay más de 200 horas de videos de conversaciones en este conjunto de datos. Las personas que aparecen en él provienen de todo el mundo y el contenido de las conversaciones también es diverso. Es simplemente un "campo de concentración de chismes".
La calidad de vídeo del conjunto de datos DyConv es muy alta, lo que garantiza que el rostro de todos sea claramente visible.
Los investigadores también utilizaron el modelo de separación de voz más avanzado para extraer la voz de cada persona por separado para facilitar el aprendizaje de la IA.
"Dieciocho artes marciales" de INFP: no solo puedes hablar, sino que también puedes...
INFP no sólo puede mostrar sus talentos en conversaciones entre dos personas, sino que también puede brillar en otros escenarios:
Modo "Generación de cabeza de escucha": puede realizar las expresiones y acciones correspondientes en función de lo que dice la otra parte, como un buen estudiante que "escucha con atención".
Modo "Generación de cabezas parlantes": puede hacer que el avatar haga formas de boca realistas basadas en el audio, como un maestro "ventrílocuo".
Para demostrar el poder del INFP, los investigadores realizaron una gran cantidad de experimentos y los resultados mostraron:
En varios indicadores, INFP ha superado a otros métodos similares, como la calidad del vídeo, la sincronización de labios y la diversidad de acciones, y ha logrado excelentes resultados.
En términos de experiencia de usuario, los participantes también coincidieron en que el vídeo generado por INFP es más natural y vívido, y coincide mejor con el audio.
Los investigadores también realizaron experimentos de ablación para demostrar que cada módulo del INFP es esencial.
Dirección del proyecto: https://grisoon.github.io/INFP/
El avance de la tecnología INFP ha traído cambios revolucionarios a la experiencia interactiva de los avatares virtuales de IA, acercándola a los métodos reales de interacción humana. En el futuro, se espera que la tecnología INFP se utilice ampliamente en muchos campos, como asistentes virtuales, educación en línea y entretenimiento, brindando a los usuarios una experiencia interactiva más natural, vívida e inmersiva.