O quadro vicentino está enrolado! A velocidade de geração do CogView3, o modelo de geração de imagens de código aberto do Zhipu, é 10 vezes mais rápida que o SDXL!

Autor：Eve Cole Data da Última Atualização：2025-03-07 10:00:05

O editor do Downcodes soube que a Zhipu AI abriu o código-fonte de seu mais recente modelo gráfico vicentino CogView3 e sua versão atualizada CogView-3Plus-3B, causando ondas no campo dos gráficos vicentinos. Como o primeiro modelo a usar difusão de relé, o CogView3 fez avanços em qualidade e eficiência de imagem com seu método exclusivo de difusão em cascata. Sua qualidade de geração excede o SDXL, mas sua velocidade de inferência é mais rápida, mesmo na versão simplificada. Isso, sem dúvida, oferece novas possibilidades para geração de imagens eficientes e de alta qualidade.

Recentemente, a Zhipu AI abriu o código-fonte de sua mais recente obra-prima - CogView3 e sua versão atualizada CogView-3Plus-3B ao público, injetando nova vitalidade no campo da gráfica vicentina.

A estreia do CogView3 é sem dúvida um marco importante. Como o primeiro modelo a implementar a difusão por retransmissão no campo da geração de texto para imagem, ele adota um método exclusivo de difusão em cascata. Esta abordagem inovadora primeiro gera imagens de baixa resolução e depois completa o resultado final através da tecnologia de super-resolução baseada em relé. Isto não só melhora muito a qualidade das imagens geradas, mas também reduz significativamente o custo de treinamento e inferência.

O que mais chama a atenção é o desempenho do CogView3. De acordo com os resultados da avaliação humana, o CogView3 supera o atual modelo de texto para imagem de código aberto SDXL de última geração em termos de qualidade de geração, com uma taxa de vitória de 77,0%. Ainda mais impressionante é que ele consegue esse feito em apenas metade do tempo de inferência do SDXL. Se você usar a versão simplificada do CogView3, ainda poderá manter um nível de desempenho comparável enquanto ocupa apenas um décimo do tempo de inferência do SDXL. Este avanço sem dúvida abre novas possibilidades para a geração de imagens eficientes e de alta qualidade.

Ao mesmo tempo, a Zhipu AI também lançou o CogView-3Plus-3B, um modelo de imagem baseado na estrutura DiT (Diffusion Transformers). Embora os resultados dos testes específicos ainda não tenham sido anunciados, a indústria está cheia de expectativas quanto ao seu potencial. CogView-3Plus-3B é ainda mais otimizado com base no CogView3 e introduz tecnologias avançadas, como programação de ruído de difusão Zero-SNR e mecanismo conjunto de atenção de imagem de texto. Essas melhorias não apenas reduzem os custos de treinamento e inferência, mas também mantêm fortes capacidades de geração de imagens.

Vale ressaltar que o CogView-3Plus-3B suporta uma ampla gama de resoluções de imagem, variando de 512x512 a 2048x2048, o que aumenta muito a flexibilidade de seus cenários de aplicação. Seja para uso diário ou criação profissional, você encontrará a opção de resolução certa.

Para ajudar os usuários a aproveitar melhor esses modelos, a Zhipu AI também fornece sugestões e ferramentas práticas. Eles recomendam que os usuários otimizem as palavras imediatas por meio de modelos de linguagem grandes (LLM), o que pode melhorar significativamente a qualidade das imagens geradas. Ao mesmo tempo, Zhipu AI também fornece scripts de amostra, o que reduz bastante o limite de uso do usuário.

Endereço do projeto: https://github.com/THUDM/CogView3

O código aberto do CogView3 e do CogView-3Plus-3B marca outro grande avanço para a tecnologia Wenshengtu. O editor de Downcodes espera trazer mais surpresas em aplicações futuras! Espero que os desenvolvedores possam tentar contribuir ativamente para o seu desenvolvimento.