Modelo de geração de vídeo de tecnologia Shengshu Vidu Versão 1.5 Release supera o problema da "consistência multi -sujeito" - artigos da AI

Autor：Eve Cole Data da Última Atualização：2025-02-12 03:32:01

Mais de cem dias após o lançamento do Vidu, a tecnologia Shengshu lançou grandemente o Vidu versão 1.5, que fez um avanço no mundo na compreensão de insumos diversificados e na solução do problema de "consistência". Isso marca a entrada de modelos visuais na era do "contexto" e estabelece uma base sólida para o desenvolvimento acelerado da inteligência artificial geral (AGI). O Vidu 1.5 não é uma atualização funcional simples, mas um reflexo do surgimento da inteligência do modelo visual.

Mais de 100 dias após o lançamento do Vidu, a tecnologia Shengshu anunciou orgulhosamente o lançamento da nova versão do Vidu1.5, que alcançou um avanço no nível principal do mundo, especialmente na compreensão de insumos diversificados e na interrupção do problema de "consistência".

O lançamento do Vidu1.5 marca a entrada de modelos visuais em uma nova era de "contexto" e acelera a chegada da inteligência artificial geral (AGI). A Vidu tem a capacidade de gerar caracteres de forma consistente no início de seu lançamento global e resolveu os principais pontos problemáticos da geração de vídeo, bloqueando os recursos faciais dos caracteres. Em setembro, Vidu foi o primeiro do mundo a liberar a função "Constituição do sujeito", expandindo a consistência facial à consistência do corpo inteiro e expandindo o escopo para qualquer assunto como animais, objetos e caracteres virtuais. Os avanços tecnológicos de Vidu são refletidos principalmente em três aspectos: controle preciso de sujeitos complexos, consistência natural de características faciais e expressões dinâmicas e consistência multifuncional.

微信截图_20241113135537.png

微信截图_20241113135531.png

O Vidu1.5 mostra o novo "surgimento de inteligência" dos modelos visuais, demonstrando sua poderosa capacidade de aprendizado de contexto. Isso significa que o modelo visual não apenas tem a capacidade de entender e imaginar, mas também pode gerenciar a memória durante o processo de geração. O Vidu1.5 continua sua eficiência de geração líder do setor, gerando um vídeo em menos de 30 segundos. Vidu adere ao conceito de universalidade, uma filosofia de design consistente com o LLM (modelo de linguagem grande), unifica todos os problemas em problemas com entrada visual e saída visual, usa um único transformador para modelar uniformemente a entrada e saída de comprimento variável e usa um único Transformador para unificar a modelagem de entrada e saída de comprimento variável e, a partir dos dados de vídeo, obtém inteligência na compactação.

O lançamento do Vidu1.5 não apenas melhora a controlabilidade do modelo de vídeo, mas também atinge a geração consistente de múltiplos ângulos, vários sujeitos e vários elementos por meio de entradas flexíveis e diversas. Isso marca o surgimento da inteligência visual e acelera a chegada da AGI. O Vidu não é mais apenas um gerador de vídeo de alta qualidade e eficiente, também pode incorporar informações e memória contextuais no processo de geração. O modelo visual terá habilidades cognitivas mais fortes e se tornará um quebra -cabeça importante para a AGI.

Endereço de experiência: www.vidu.studio

A liberação do Vidu 1.5 não é apenas um avanço tecnológico, mas também um progresso marco no campo da inteligência visual. Ele fornece novas possibilidades para o desenvolvimento futuro da AGI, e vale a pena esperar sua aplicação e inovação em mais campos. Bem -vindo a visitar o endereço da experiência e experimentar o charme da inteligência visual!