Beijing Zhipu Huazhang Technology Co., Ltd. lançou o CogVideoX v1.5. A versão mais recente deste modelo de geração de vídeo é de código aberto! Desde o seu lançamento no início de agosto, a série CogVideoX rapidamente se tornou uma escolha popular no campo de geração de vídeo com sua tecnologia líder e recursos amigáveis ao desenvolvedor. O editor do Downcodes aprendeu que o CogVideoX v1.5 alcançou melhorias significativas nos recursos de geração de vídeo e nos modelos de conversão de imagem para vídeo (I2V), trazendo aos usuários uma experiência de criação de vídeo melhor e mais conveniente.

Este código aberto inclui dois modelos: CogVideoX v1.5-5B e CogVideoX v1.5-5B-I2V. Eles foram lançados simultaneamente na plataforma Qingying e combinados com o modelo de efeito sonoro CogSound para fornecer um serviço de geração de vídeo AI mais poderoso, suportando resolução de alta definição, proporções variáveis para se adaptar a diferentes cenas, saída multicanal e geração de vídeo AI com efeitos sonoros. No nível técnico, o CogVideoX v1.5 melhora significativamente a qualidade de geração de vídeo e a coerência do conteúdo por meio de tecnologias como estrutura de triagem automatizada, modelo de compreensão de vídeo de ponta a ponta CogVLM2-caption e autoencoder variacional tridimensional eficiente (3D VAE). Além disso, a arquitetura Transformer desenvolvida de forma independente, que integra as três dimensões de texto, tempo e espaço, otimiza ainda mais o desempenho do modelo.
Em termos de treinamento, o CogVideoX v1.5 constrói uma estrutura de treinamento de modelo de difusão eficiente e alcança treinamento rápido de longas sequências de vídeo por meio de uma variedade de tecnologias de computação paralela e otimização de tempo. Zhipu Huazhang disse que verificou a eficácia da lei de dimensionamento no campo da geração de vídeo e planeja expandir a quantidade de dados e a escala do modelo no futuro e explorar arquiteturas de modelo inovadoras para compactar informações de vídeo de forma mais eficiente e integrar melhor texto e Conteúdo de vídeo.
Código: https://github.com/thudm/cogvideo
Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
O código aberto do CogVideoX v1.5 irá, sem dúvida, promover ainda mais o desenvolvimento tecnológico e a inovação de aplicações no campo da geração de vídeo, fornecendo aos desenvolvedores ferramentas e recursos mais poderosos. Ansioso por mais surpresas da série CogVideoX no futuro!