Recientemente, Alibaba lanzó el nuevo modelo de generación de videos de código abierto WAN2.1 a altas horas de la noche. Este modelo encabezó rápidamente la lista de Vbench con su volumen de parámetros de 14B y se convirtió en el líder actual en el campo de la generación de videos. En comparación con el QWQ-Max lanzado anteriormente, WAN2.1 funciona particularmente bien en los detalles de los movimientos complejos, y puede darse cuenta sin problemas de la danza sincrónica de múltiples personajes, lo que demuestra su fuerte fuerza técnica.
En la demostración oficial, WAN2.1 no solo resolvió con éxito las dificultades en la generación de imágenes estáticas, sino que también alcanzó un nuevo nivel en el procesamiento de textos. Aunque hay ciertas dificultades para implementar los parámetros de 14B en tarjetas de gráficos personales de consumo, Alibaba ha lanzado especialmente una pequeña versión de 1.3b, que admite una resolución de 480p y puede ejecutarse sin problemas utilizando una tarjeta gráfica 4070 con memoria gráfica de 12 GB, proporcionando más opciones para usuarios ordinarios.

Además de las versiones 14b y 1.3b, Alibaba también ha lanzado dos modelos adicionales de generación de videos, ambos utilizando el protocolo Apache2.0, que los usuarios pueden usar de forma gratuita. Los usuarios pueden acceder a este modelo a través de la plataforma proporcionada por Alibaba para generar rápidamente videos. Sin embargo, debido al aumento en el volumen del usuario, puede haber casos en los que el tiempo de espera es demasiado largo. Para los usuarios con cierta base técnica, también pueden instalarlos y depurarlos por sí mismos a través de varios canales, como Huggingface y Modai Community.
Lo más destacado de WAN2.1 es su innovación tecnológica. El modelo adopta la arquitectura del transformador de difusión y combina un autoencoder variacional 3D para diseñar específicamente para la generación de videos. Al introducir una variedad de estrategias de compresión y paralelo, el modelo mejora enormemente la eficiencia de la generación al tiempo que garantiza la calidad. La investigación muestra que la velocidad de reconstrucción de WAN es 2.5 veces la de las tecnologías similares actuales, lo que ahorra significativamente los recursos informáticos.
En términos de experiencia del usuario, WAN2.1 también ha recibido elogios generalizados. Ya sea que esté generando detalles en escenas dinámicas o efectos físicos naturales, el rendimiento del modelo es impresionante. A través de este modelo, los usuarios no solo pueden producir obras de video de alta calidad, sino también realizar fácilmente una presentación dinámica de texto, lo que brinda más posibilidades a su creación.
El modelo WAN2.1 de Alibaba no solo es tecnológicamente avanzado, sino que también proporciona una libertad más creativa para los creadores, marcando otro gran avance en la tecnología de generación de videos. El lanzamiento de este modelo, sin duda, promoverá aún más el desarrollo del campo de la generación de videos y traerá experiencias más innovadoras a los usuarios.