Recentemente, o Alibaba lançou o novo modelo de geração de vídeo de código aberto WAN2.1 tarde da noite. Esse modelo liderou rapidamente a lista do Vbench com seu volume de parâmetros 14B e se tornou o líder atual no campo da geração de vídeo. Comparado com o QWQ-MAX lançado anteriormente, o WAN2.1 tem um desempenho particularmente bom nos detalhes de movimentos complexos e pode perceber suavemente a dança síncrona de vários personagens, demonstrando sua forte força técnica.
Na demonstração oficial, o WAN2.1 não apenas resolveu as dificuldades na geração de imagens estáticas, mas também atingiu um novo nível no processamento de texto. Embora existam certas dificuldades na implantação dos parâmetros 14B em placas de gráficos de consumo pessoais, o Alibaba lançou especialmente uma pequena versão do 1.3B, que suporta resolução de 480p e pode executar sem problemas uma placa gráfica 4070 com memória gráfica de 12 GB, fornecendo mais opções para usuários ordinários.

Além das versões 14B e 1.3B, o Alibaba também lançou dois modelos adicionais de geração de vídeo, ambos usando o protocolo Apache2.0, que os usuários podem usar gratuitamente. Os usuários podem acessar esse modelo através da plataforma fornecida pelo Alibaba para gerar vídeos rapidamente. No entanto, devido ao aumento do volume do usuário, pode haver casos em que o tempo de espera é muito longo. Para usuários com uma certa base técnica, eles também podem instalá -los e depurar por meio de vários canais, como o HuggingFace e a comunidade Modai.
O maior destaque do WAN2.1 é sua inovação tecnológica. O modelo adota a arquitetura do transformador de difusão e combina um autoencoder em 3D variacional para projetar especificamente para a geração de vídeo. Ao introduzir uma variedade de compressão e estratégias paralelas, o modelo melhora bastante a eficiência da geração, garantindo a qualidade. Pesquisas mostram que a velocidade de reconstrução da WAN é 2,5 vezes a das tecnologias semelhantes atuais, o que salva significativamente os recursos de computação.
Em termos de experiência do usuário, o WAN2.1 também recebeu elogios generalizados. Seja gerando detalhes em cenas dinâmicas ou efeitos físicos naturais, o desempenho do modelo é impressionante. Por meio desse modelo, os usuários podem não apenas produzir trabalhos de vídeo de alta qualidade, mas também realizam facilmente a apresentação dinâmica do texto, trazendo mais possibilidades à sua criação.
O modelo WAN2.1 do Alibaba não é apenas tecnologicamente avançado, mas também fornece liberdade mais criativa para os criadores, marcando outro grande avanço na tecnologia de geração de vídeos. O lançamento deste modelo, sem dúvida, promoverá ainda mais o desenvolvimento do campo de geração de vídeo e trará experiências mais inovadoras para os usuários.