Alibaba Tongyi Wanxiang anuncia el modelo de generación de videos de código abierto WANX 2.1 - AI AITOS

Autor：Eve Cole Fecha de actualización：2025-05-27 20:25:02

Recientemente, Alibaba anunció que su modelo de generación de videos WANX2.1 será de código abierto y anunció los últimos efectos de video. Esta noticia ha atraído una atención generalizada en la comunidad tecnológica, marcando otro gran avance en la tecnología de IA en el campo de la generación de videos.

En enero de 2025, el equipo Tongyi Wanxiang de Alibaba lanzó el modelo multimodal Wanx2.1. Con su excelente rendimiento en el campo de la generación de videos, el modelo encabezó la lista de revisiones de VBench, redefinidos estándares de creación visual impulsados por la IA. El equipo de WANX anunció anoche que abrirá Source su último modelo de generación de videos WANX2.1, que sin duda promoverá la popularización y aplicación de la tecnología de IA.

Se informa que Wanx2.1 supera el problema de generación de texto de larga data en los modelos de video de IA por primera vez, convirtiéndose en el primer modelo del mundo para apoyar los efectos especiales de texto chino e inglés. Los usuarios solo necesitan ingresar instrucciones de texto para generar videos dinámicos y combinarlos con diversas transiciones, partículas y otros efectos especiales. Además, a través de las arquitecturas de VAE y DIT eficientes autodesarrolladas, el modelo realiza una codificación y decodificación eficientes de videos infinitamente largos de 1080p, mejorando significativamente las capacidades de modelado de contexto espacial y temporal.

En términos de simulación de ley física, Wanx2.1 puede restaurar con precisión escenarios complejos como colisión, rebote y corte. Por ejemplo, al generar videos de "gotas de lluvia que caen sobre la superficie del paraguas y salpicando agua" o "patinadores de figuras que giran", la coordinación física y la trayectoria de movimiento están en línea con leyes físicas reales, resolviendo efectivamente los problemas de la distorsión física y los movimientos rígidos de los modelos tradicionales. Este avance tecnológico aporta una experiencia visual más realista y suave a la generación de videos de IA.