Em 4 de março de 2025, a Pequim Zhipu Huazhang Technology Co., Ltd., lançou oficialmente seu mais recente modelo de gráfico biográfico de código aberto - CogView4. Esse modelo teve um desempenho excelentemente no teste de referência de banco de banco DPG, com uma pontuação geral superior, e tornou-se uma referência técnica no atual modelo literário e biográfico de código aberto. O CogView4 não apenas segue o protocolo Apache 2.0, mas também é o primeiro modelo de geração de imagens para suportar o protocolo, marcando um novo marco na tecnologia de geração de imagem de código aberto.
A vantagem central do CogView4 é seu poderoso alinhamento e instrução complexa semântica seguindo os recursos. Pode processar a entrada bilíngue chinesa e inglesa de qualquer comprimento e gerar imagens de qualquer resolução. Esse recurso faz com que o CogView4 tenha amplas perspectivas de aplicativos em campos criativos, como publicidade e vídeos curtos. Tecnicamente, o CogView4 adota o codificador GLM-4 com habilidades bilíngues. Através do treinamento gráfico bilíngue chinês e inglês, ele percebe a capacidade de inserir palavras rápidas bilíngues, melhorando ainda mais a praticidade e a flexibilidade do modelo.

Em termos de geração de imagens, o CogView4 suporta qualquer comprimento de entrada de palavras imediata e pode gerar imagens de qualquer resolução, melhorando bastante a liberdade criativa e a eficiência do treinamento. O modelo usa codificação de posição rotacional bidimensional (corda 2D) para modelar informações de posição da imagem e suporta geração de imagens em diferentes resoluções por meio da codificação de posição interpolada. Além disso, o CogView4 também adota o esquema de correspondência de fluxo para modelagem de geração de difusão, combinando planejamento de ruído dinâmico linear parametrizado para se adaptar aos requisitos de relação sinal-ruído das imagens com diferentes resoluções e garantir a alta qualidade das imagens geradas.
Em termos de projeto arquitetônico, o CogView4 continua a geração anterior de arquitetura de DIT de compartilhamento de compartilhamento e projeta camadas de camadas adaptativas independentes para modalidades de texto e imagem para obter uma adaptação eficiente entre modalidades. O modelo adota uma estratégia de treinamento em vários estágios, incluindo treinamento básico de resolução, treinamento em resolução geral, ajuste fino de dados de alta qualidade e treinamento de alinhamento de preferência humana, garantindo que as imagens geradas não tenham apenas um alto sentido estético, mas também em conformidade com as preferências estéticas humanas.
O CogView4 também rompe o limite tradicional do comprimento do token fixo, permitindo um limite superior de token mais alto e reduz significativamente a redundância do token de texto durante o treinamento. Quando o comprimento médio da legenda do treinamento é de 200 a 300 token, em comparação com a solução tradicional de 512 tokens fixos, o CogView4 reduz a redundância do token em cerca de 50% e atinge uma melhoria de 5% -30% de eficiência no estágio de treinamento progressivo do modelo, otimizando ainda mais o efeito de treinamento do modelo.
Além disso, o CogView4 suporta o protocolo Apache 2.0 e adicionará gradualmente suporte ecológico, como ControlNet e Comfyui no futuro. Um conjunto completo de kits de ferramentas de ajuste fino será lançado em breve, proporcionando aos desenvolvedores uma experiência mais conveniente do usuário. O endereço do armazém de código aberto é: https://github.com/thudm/cogview4, e o endereço do armazém modelo é: https://huggingface.co/thudm/cogview4-6b e https://modelscope.cn/models/zhipuai/cview4-6bView.