Shengshu Technology Video Generation Model VidU version 1.5 La version surmonte le problème de la "cohérence multi-sujets" - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-02-12 03:32:01

Plus d'une centaine de jours après le lancement de Vidu, Shengshu Technology a lancé VIDU version 1.5, qui a fait une percée de pointe dans la compréhension des intrants diversifiés et la résolution du problème de la "cohérence". Cela marque l'entrée de modèles visuels dans l'ère "Context" et jette une base solide pour le développement accéléré de l'intelligence artificielle générale (AGI). Vidu 1.5 n'est pas une mise à niveau fonctionnelle simple, mais un reflet de l'émergence de l'intelligence du modèle visuel.

Plus de 100 jours après le lancement de Vidu, Shengshu Technology a fièrement annoncé le lancement de la nouvelle version de Vidu1.5, qui a réalisé une percée au niveau de premier plan du monde, en particulier pour comprendre les intrants diversifiés et percer le problème de "cohérence".

Le lancement de Vidu1.5 marque l'entrée de modèles visuels dans une nouvelle ère de "contexte" et accélère l'arrivée de l'intelligence artificielle générale (AGI). Vidu a la capacité de générer des personnages de manière cohérente au début de son lancement mondial et a résolu des points de douleur clés dans la génération de vidéos en verrouillant les caractéristiques faciales des personnages. En septembre, Vidu a été le premier au monde à libérer la fonction de "cohérence du sujet", élargissant la cohérence faciale à la cohérence du corps entier et en élargissant la portée à tout sujet tel que les animaux, les objets et les caractères virtuels. Les percées technologiques de Vidu se reflètent principalement dans trois aspects: contrôle précis des sujets complexes, cohérence naturelle des caractéristiques faciales et des expressions dynamiques, et la cohérence multi-sujets.

微信截图_20241113135537.png

微信截图_20241113135531.png

Vidu1.5 montre la nouvelle «émergence de l'intelligence» des modèles visuels, démontrant sa puissante capacité d'apprentissage de contexte. Cela signifie que le modèle visuel a non seulement la capacité de comprendre et d'imaginer, mais peut également gérer la mémoire pendant le processus de génération. Vidu1.5 poursuit son efficacité de génération de pointe, générant une vidéo en moins de 30 secondes. Vidu adhère au concept d'universalité, une philosophie de conception cohérente avec LLM (modèle grand langage), unifie tous les problèmes en problèmes avec entrée visuelle et sortie visuelle, utilise un seul transformateur pour modéliser uniformément l'entrée et la sortie de longueur variable, et utilise un seul Transformateur pour unifier la modélisation de l'entrée et de la sortie de longueur variable, et à partir des données vidéo, obtenez l'intelligence en compression.

Le lancement de Vidu1.5 améliore non seulement la contrôlabilité du modèle vidéo, mais réalise également la génération cohérente d'angles multiples, de plusieurs sujets et de plusieurs éléments grâce à des entrées flexibles et diverses. Cela marque l'émergence de l'intelligence visuelle et accélère l'arrivée de l'AGI. Vidu n'est plus un générateur vidéo de haute qualité et efficace, il peut également incorporer des informations contextuelles et de la mémoire dans le processus de génération. Le modèle visuel aura des capacités cognitives plus fortes et deviendra un puzzle important pour AGI.

Adresse de l'expérience: www.vidu.studio

La libération de Vidu 1.5 n'est pas seulement une percée technologique, mais aussi une progression marquante dans le domaine de l'intelligence visuelle. Il offre de nouvelles possibilités pour le développement futur de l'AGI, et il vaut la peine d'être attendu à son application et à son innovation dans plus de domaines. Bienvenue pour visiter l'adresse de l'expérience et l'expérience du charme de l'intelligence visuelle!