Récemment, Alibaba a annoncé que son modèle de génération de vidéos WANX2.1 sera entièrement open source et a annoncé les derniers effets vidéo. Cette nouvelle a attiré une grande attention dans la communauté technologique, marquant une autre percée majeure dans la technologie de l'IA dans le domaine de la génération de vidéos.
En janvier 2025, l'équipe Tongyi Wanxiang d'Alibaba a lancé le modèle multimodal WANX2.1. Avec ses performances exceptionnelles dans le domaine de la génération de vidéos, le modèle est en tête de la liste des examens de VBench, redéfini les normes de création visuelle axées sur l'IA. L'équipe WANX a annoncé hier soir qu'elle ouvrirait son dernier modèle de génération de vidéos WANX2.1, qui favoriserait sans aucun doute la vulgarisation et l'application de la technologie de l'IA.
Il est rapporté que WANX2.1 surmonte le problème de la génération de texte de longue date dans les modèles vidéo d'IA pour la première fois, devenant le premier modèle mondial à soutenir des effets spéciaux de texte chinois et anglais. Les utilisateurs n'ont qu'à saisir des instructions de texte pour générer des vidéos dynamiques et les faire correspondre à diverses transitions, particules et autres effets spéciaux. De plus, grâce à des architectures VAE et DIT efficaces auto-développées, le modèle réalise un codage et un décodage efficaces de vidéos 1080p infiniment longues, améliorant considérablement les capacités de modélisation du contexte spatial et temporel.
En termes de simulation de droit physique, WANX2.1 peut restaurer avec précision des scénarios complexes tels que la collision, le rebond et la coupe. Par exemple, lors de la génération de vidéos de «gouttes de pluie tombant sur la surface du parapluie et de l'eau éclaboussante» ou de «patineurs de figures qui tournent», la coordination physique et la trajectoire de mouvement sont conformes aux lois physiques réelles, résolvant efficacement les problèmes de distorsion physique et de mouvements rigides des modèles traditionnels. Cette percée technologique apporte une expérience visuelle plus réaliste et fluide à la génération de vidéos IA.