Récemment, Alibaba a publié le nouveau modèle de génération de vidéos open source WAN2.1 tard dans la nuit. Ce modèle est rapidement en tête de la liste VBench avec son volume de paramètres 14B et est devenu le leader actuel dans le domaine de la génération vidéo. Par rapport au QWQ-Max précédemment publié, WAN2.1 se comporte particulièrement bien dans les détails des mouvements complexes et peut réaliser en douceur la danse synchrone de plusieurs personnages, démontrant sa forte force technique.
Dans la démonstration officielle, WAN2.1 a non seulement résolu avec succès les difficultés de génération d'images statiques, mais a également atteint un nouveau niveau de traitement de texte. Bien qu'il y ait certaines difficultés à déployer les paramètres 14B sur les cartes graphiques de consommation personnelles, Alibaba a spécialement lancé une petite version de 1.3B, qui prend en charge la résolution 480p et peut fonctionner en douceur en utilisant une carte graphique 4070 avec 12 Go de mémoire graphique, en fournissant plus de choix pour les utilisateurs ordinaires.

En plus des versions 14b et 1.3b, Alibaba a également publié deux modèles de génération de vidéos supplémentaires, à la fois en utilisant le protocole Apache2.0, que les utilisateurs peuvent utiliser gratuitement. Les utilisateurs peuvent accéder à ce modèle via la plate-forme fournie par Alibaba pour générer rapidement des vidéos. Cependant, en raison de la surtension du volume des utilisateurs, il peut y avoir des cas où le temps d'attente est trop long. Pour les utilisateurs avec une certaine base technique, ils peuvent également les installer et les déboguer par eux-mêmes via divers canaux tels que HuggingFace et Modai Community.
Le plus grand moment fort de WAN2.1 est son innovation technologique. Le modèle adopte l'architecture du transformateur de diffusion et combine un autoencodeur variationnel 3D pour concevoir spécifiquement pour la génération de vidéos. En introduisant une variété de stratégies de compression et de parallèle, le modèle améliore considérablement l'efficacité de la génération tout en garantissant la qualité. La recherche montre que la vitesse de reconstruction de WAN est 2,5 fois celle des technologies similaires actuelles, ce qui permet de considérablement les ressources informatiques.
En termes d'expérience utilisateur, WAN2.1 a également reçu des éloges répandus. Qu'il s'agisse de détails dans des scènes dynamiques ou des effets physiques naturels, les performances du modèle sont impressionnantes. Grâce à ce modèle, les utilisateurs peuvent non seulement produire des travaux vidéo de haute qualité, mais aussi réaliser facilement la présentation dynamique du texte, apportant plus de possibilités à leur création.
Le modèle WAN2.1 d'Alibaba est non seulement technologiquement avancé, mais offre également plus de liberté créative aux créateurs, marquant une autre percée majeure dans la technologie de génération de vidéos. La publication de ce modèle favorisera sans aucun doute le développement du domaine de génération de vidéos et apportera des expériences plus innovantes aux utilisateurs.