O modelo de geração de vídeo Vidu versão 1.5 da Shengshu Technology é lançado para superar o problema de “consistência multiassunto”

Autor：Eve Cole Data da Última Atualização：2025-03-06 16:00:04

Mais de cem dias depois que o Vidu ficou online, a Shengshu Technology lançou grandiosamente a versão 1.5 do Vidu. Esta versão fez avanços líderes mundiais na compreensão de diversas entradas e na solução de problemas de "consistência". O editor de Downcodes lhe dará uma compreensão aprofundada das inovações trazidas pelo Vidu 1.5 e como ele promove o modelo visual para entrar na era do “contexto” e acelerar a chegada da inteligência artificial geral (AGI).

Na ocasião em que o Vidu está online há mais de 100 dias, a Shengshu Technology tem o orgulho de anunciar o lançamento da nova versão do Vidu 1.5, que alcançou avanços líderes mundiais, especialmente na compreensão de diversas entradas e na quebra da "consistência" problema.

O lançamento do Vidu1.5 marca a entrada do modelo visual em uma nova era de “contexto”, acelerando a chegada da inteligência artificial geral (AGI). O Vidu tem a capacidade de gerar personagens consistentes desde seu lançamento global e resolve os principais problemas na geração de vídeo, bloqueando as características faciais dos personagens. Em setembro, a Vidu foi a primeira no mundo a lançar a função “Consistência de Assunto”, estendendo a consistência facial à consistência de corpo inteiro e estendendo o escopo a qualquer assunto, como animais, objetos e personagens virtuais. Os avanços tecnológicos da Vidu refletem-se principalmente em três aspectos: controle preciso de assuntos complexos, consistência natural das características faciais e expressões dinâmicas dos personagens e consistência multi-assuntos.

Vidu1.5 demonstra a nova “emergência inteligente” do modelo visual e suas poderosas capacidades de aprendizagem contextual. Isso significa que o modelo visual não só tem a capacidade de compreender e imaginar, mas também pode realizar o gerenciamento da memória durante o processo de geração. O Vidu1.5 continua com sua eficiência de geração líder do setor e pode gerar um vídeo em menos de 30 segundos. O Vidu adere ao conceito de versatilidade e a uma filosofia de design consistente com LLM (Large Language Model), unificando todos os problemas em problemas de entrada e saída visual, usando um único Transformer para modelar uniformemente entrada e saída de comprimento variável e a partir de dados de vídeo. inteligência em compressão.

O lançamento do Vidu1.5 não apenas melhora a controlabilidade dos modelos de vídeo, mas também alcança a geração consistente de múltiplos ângulos, múltiplos assuntos e múltiplos elementos através de múltiplas entradas flexíveis. Isto marca o surgimento da inteligência visual e acelera a chegada da AGI. O Vidu não é mais apenas um gerador de vídeo eficiente e de alta qualidade. Ele também pode incorporar informações contextuais e memória no processo de geração. Este é um “grande salto” na inteligência modal visual. O modelo visual terá capacidades cognitivas mais fortes e se tornará uma peça importante do quebra-cabeça AGI.

Endereço da experiência: www.vidu.studio

O lançamento da versão 1.5 do Vidu anuncia um novo capítulo na tecnologia visual de IA. Suas funções poderosas e operação conveniente certamente trarão aos usuários uma nova experiência de geração de vídeo. Esperamos que a Vidu continue a fazer avanços no desenvolvimento futuro e contribua mais para a chegada da AGI!