Tencent anunció recientemente el código abierto de su último marco de generación de imagen a video: Hunyuanvideo-I2V. Este movimiento marca un paso importante para que Tencent promueva el desarrollo de comunidades de código abierto, especialmente después de su exitoso código abierto Hunyuanvideo, que demuestra aún más sus capacidades innovadoras en el campo de la inteligencia artificial.

Hunyuanvideo-I2V combina la tecnología de generación de videos más avanzada en la actualidad, que puede transformar las imágenes estáticas en contenido de video vívido, proporcionando a los creadores posibilidades más creativas. Los usuarios solo necesitan cargar una imagen y describir brevemente el efecto dinámico de la imagen para generar un video corto de cinco segundos. La característica de este modelo es que no solo permite que las imágenes estáticas "se muevan", sino que también se pueden combinar automáticamente con efectos de sonido de fondo, mejorando en gran medida la diversión y el atractivo del video.
Hunyuanvideo-I2V utiliza un modelo de lenguaje grande y de lenguaje más priorizado como un codificador de texto, mejorando significativamente la capacidad del modelo para comprender el contenido semántico de la imagen de entrada. Esto significa que las imágenes de entrada del usuario pueden generar marcadores de imágenes semánticas a través del modelo, que se combinan con marcadores de potencial de video, logrando así un cálculo de atención total más integral. De esta manera, el sistema puede maximizar la sinergia entre la imagen y la modalidad de texto, asegurando que el contenido de video generado a partir de imágenes estáticas sea más coherente y realista.
Para permitir que más usuarios experimenten esta función, se ha lanzado el sitio web oficial de Hunyuan AI Video, y los usuarios pueden acceder directamente al sitio web para operar. Además, las empresas y los desarrolladores también pueden solicitar interfaces API a través de Tencent Cloud para integrar esta tecnología en sus aplicaciones. Este modelo de video Tusheng es una continuación del trabajo de código abierto del modelo de video Hunyuan Wensheng. Los parámetros del modelo total alcanzan los 13 mil millones, que es adecuado para generar varios tipos de personajes y escenas, cubriendo videos realistas, personajes de animación y personajes CGI.
Durante el proceso de uso específico, los usuarios también pueden cargar caracteres e ingresar texto o audio que desean "bear" en su "sincronización de labios". El sistema puede hacer que los personajes de la imagen "hablar" o "cantar". Al mismo tiempo, Hunyuan también ha lanzado la función "impulsada por la acción", donde los usuarios pueden generar videos de baile correspondientes con un solo clic para mejorar la diversidad y la diversión de la creación.
Vale la pena mencionar que el modelo de video de código abierto Tusheng se ha lanzado en las comunidades de desarrolladores convencionales como GitHub y Huggingface. Los desarrolladores pueden descargar contenido relacionado para experimentación y desarrollo. El contenido de código abierto incluye pesos de modelos, códigos de inferencia y códigos de capacitación de Lora, que brindan a los desarrolladores más posibilidades de capacitar a modelos Lora exclusivos sobre esta base.
Desde el código abierto, la popularidad del modelo de generación de Huggingface ha aumentado. En diciembre del año pasado, encabezó la parte superior de la lista de tendencias de Huggingface, y el número de estrellas en Github ha superado los 8.9k. Muchos desarrolladores también están fabricando activamente complementos y modelos derivados para Hunyuanvideo, y han acumulado más de 900 versiones derivadas. El modelo de gráficos literarios Hunyuan DIT de código abierto también funcionó bien, con más de 1,600 modelos derivados.
Sitio web oficial: https://video.hunyuan.tencent.com/
github: https://github.com/tencent/hunyuanvideo-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvideo-i2v