Le modèle de génération vidéo Vidu version 1.5 de Shengshu Technology est publié pour surmonter le problème de la « cohérence multi-sujets »

Auteur：Eve Cole Date de mise à jour：2025-03-06 16:00:04

Plus de cent jours après la mise en ligne de Vidu, Shengshu Technology a lancé en grande pompe la version 1.5 de Vidu. Cette version a réalisé des avancées de premier plan dans la compréhension de diverses entrées et dans la résolution de problèmes de « cohérence ». L'éditeur de Downcodes vous fera comprendre en profondeur les innovations apportées par Vidu 1.5 et comment il promeut le modèle visuel pour passer dans l'ère du « contexte » et accélérer l'arrivée de l'intelligence artificielle générale (AGI).

A l'occasion que Vidu est en ligne depuis plus de 100 jours, Shengshu Technology est fier d'annoncer la sortie de la nouvelle version de Vidu 1.5, qui a réalisé des avancées de premier plan au monde, notamment dans la compréhension de la diversité des entrées et la rupture de la « cohérence » problème.

Le lancement de Vidu1.5 marque l'entrée du modèle visuel dans une nouvelle ère « contextuelle », accélérant l'arrivée de l'intelligence artificielle générale (AGI). Vidu a la capacité de générer des personnages cohérents depuis son lancement mondial et résout les principaux problèmes de la génération vidéo en verrouillant les traits du visage des personnages. En septembre, Vidu a été le premier au monde à lancer la fonction « Cohérence du sujet », étendant la cohérence du visage à la cohérence du corps entier et étendant la portée à n'importe quel sujet tel que les animaux, les objets et les personnages virtuels. Les avancées technologiques de Vidu se reflètent principalement dans trois aspects : le contrôle précis de sujets complexes, la cohérence naturelle des traits du visage et les expressions dynamiques des personnages, et la cohérence multi-sujets.

Vidu1.5 démontre la nouvelle « émergence intelligente » du modèle visuel et ses puissantes capacités d'apprentissage contextuel. Cela signifie que le modèle visuel a non seulement la capacité de comprendre et d'imaginer, mais peut également gérer la mémoire pendant le processus de génération. Vidu1.5 maintient son efficacité de génération de pointe et peut générer une vidéo en moins de 30 secondes. Vidu adhère au concept de polyvalence et à une philosophie de conception cohérente avec LLM (Large Language Model), unifiant tous les problèmes en problèmes d'entrée et de sortie visuelles, en utilisant un seul transformateur pour modéliser uniformément les entrées et sorties de longueur variable, et à partir de données vidéo. l'intelligence en compression.

Le lancement de Vidu1.5 améliore non seulement la contrôlabilité des modèles vidéo, mais permet également une génération cohérente de plusieurs angles, plusieurs sujets et plusieurs éléments grâce à plusieurs entrées flexibles. Cela marque l’émergence de l’intelligence visuelle et accélère l’arrivée de l’AGI. Vidu n'est plus seulement un générateur vidéo efficace et de haute qualité. Il peut également intégrer des informations contextuelles et de la mémoire dans le processus de génération. Il s'agit d'un « grand pas » dans l'intelligence modale visuelle. Le modèle visuel aura des capacités cognitives plus fortes et deviendra une pièce importante du puzzle AGI.

Adresse de l'expérience : www.vidu.studio

La sortie de Vidu version 1.5 annonce un nouveau chapitre dans la technologie de l'IA visuelle. Ses fonctions puissantes et son fonctionnement pratique apporteront certainement aux utilisateurs une nouvelle expérience de génération vidéo. Nous sommes impatients de voir Vidu continuer à faire des percées dans le développement futur et contribuer davantage à l'arrivée d'AGI !