Se lanza la versión 1.5 del modelo de generación de video Vidu de Shengshu Technology para superar el problema de la "consistencia de múltiples sujetos"

Autor：Eve Cole Fecha de actualización：2025-03-06 16:00:04

Más de cien días después de que Vidu estuviera en línea, Shengshu Technology lanzó grandiosamente la versión 1.5 de Vidu. Esta versión ha logrado avances líderes en el mundo en la comprensión de diversas entradas y la resolución de problemas de "consistencia". El editor de Downcodes le brindará una comprensión profunda de las innovaciones aportadas por Vidu 1.5 y cómo promueve el modelo visual para pasar a la era del "contexto" y acelerar la llegada de la inteligencia artificial general (AGI).

Con motivo de que Vidu ha estado en línea durante más de 100 días, Shengshu Technology se enorgullece de anunciar el lanzamiento de la nueva versión de Vidu 1.5, que ha logrado avances líderes en el mundo, especialmente en la comprensión de diversas entradas y la ruptura de la "consistencia". problema.

El lanzamiento de Vidu1.5 marca que el modelo visual entra en una nueva era de "contexto", acelerando la llegada de la inteligencia artificial general (AGI). Vidu tiene la capacidad de generar personajes consistentes desde su lanzamiento global y resuelve puntos clave en la generación de videos al bloquear los rasgos faciales de los personajes. En septiembre, Vidu fue el primero en el mundo en lanzar la función "Consistencia del sujeto", extendiendo la consistencia facial a la consistencia de todo el cuerpo y extendiendo el alcance a cualquier tema, como animales, objetos y personajes virtuales. Los avances tecnológicos de Vidu se reflejan principalmente en tres aspectos: control preciso de sujetos complejos, consistencia natural de los rasgos faciales y expresiones dinámicas de los personajes, y consistencia entre múltiples sujetos.

Vidu1.5 demuestra el nuevo "surgimiento inteligente" del modelo visual y sus poderosas capacidades de aprendizaje contextual. Esto significa que el modelo visual no solo tiene la capacidad de comprender e imaginar, sino que también puede realizar la gestión de la memoria durante el proceso de generación. Vidu1.5 continúa con su eficiencia de generación líder en la industria y puede generar un video en menos de 30 segundos. Vidu se adhiere al concepto de versatilidad y una filosofía de diseño consistente con LLM (modelo de lenguaje grande), unificando todos los problemas en problemas de entrada y salida visual, utilizando un solo transformador para modelar uniformemente la entrada y salida de longitud variable, y a partir de datos de video. Inteligencia en compresión.

El lanzamiento de Vidu1.5 no solo mejora la controlabilidad de los modelos de video, sino que también logra una generación consistente de múltiples ángulos, múltiples sujetos y múltiples elementos a través de múltiples entradas flexibles. Esto marca el surgimiento de la inteligencia visual y acelera la llegada de AGI. Vidu ya no es sólo un generador de vídeo eficiente y de alta calidad. También puede incorporar información contextual y memoria en el proceso de generación. Este es un "gran salto" en la inteligencia modal visual. El modelo visual tendrá capacidades cognitivas más sólidas y se convertirá en una pieza importante del rompecabezas AGI.

Dirección de la experiencia: www.vidu.studio

El lanzamiento de la versión 1.5 de Vidu presagia un nuevo capítulo en la tecnología de IA visual. Sus potentes funciones y su conveniente operación definitivamente brindarán a los usuarios una nueva experiencia de generación de videos. ¡Esperamos que Vidu continúe logrando avances en el desarrollo futuro y contribuyendo más a la llegada de AGI!