Alibaba tongyi wanxiang anuncia modelo de geração de vídeo de código aberto wanx 2.1 - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-05-27 20:25:02

Recentemente, a Alibaba anunciou que seu modelo de geração de vídeo WANX2.1 será totalmente de código aberto e anunciou os mais recentes efeitos de vídeo. Esta notícia atraiu a atenção generalizada na comunidade de tecnologia, marcando outro grande avanço na tecnologia de IA no campo da geração de vídeo.

Em janeiro de 2025, a equipe Tongyi Wanxiang, do Alibaba, lançou o modelo multimodal wanx2.1. Com seu excelente desempenho no campo da geração de vídeos, o modelo liderou a lista de revisão do VBEnch, redefiniu os padrões de criação visual orientada pela IA. A equipe WANX anunciou na noite passada que abrirá o seu mais recente modelo de geração de vídeo WANX2.1, que sem dúvida promoverá a popularização e a aplicação da tecnologia de IA.

É relatado que o WANX2.1 supera o problema de geração de texto de longa data nos modelos de vídeo de IA pela primeira vez, tornando-se o primeiro modelo do mundo para apoiar efeitos especiais de texto em chinês e inglês. Os usuários só precisam inserir instruções de texto para gerar vídeos dinâmicos e combiná -los com diversas transições, partículas e outros efeitos especiais. Além disso, por meio de arquiteturas de VAE e DIT eficientes auto-desenvolvidas, o modelo realiza codificação e decodificação eficientes de vídeos infinitamente longos de 1080p, melhorando significativamente os recursos de modelagem de contexto espacial e temporal.

Em termos de simulação de direito físico, o WANX2.1 pode restaurar com precisão cenários complexos, como colisão, recuperação e corte. Por exemplo, ao gerar vídeos de "gotas de chuva que caem na superfície da guarda -chuva e na água" ou "patinadores de figuras", a coordenação física e a trajetória de movimento estão alinhadas com leis físicas reais, resolvendo efetivamente os problemas de distorção física e movimentos rígidos dos modelos tradicionais. Esse avanço tecnológico traz uma experiência visual mais realista e suave para a geração de vídeos da IA.