O mais recente modelo cultural e biográfico de código aberto CogView4 lançado pela Zhipu AI é lançado oficialmente, marcando outra grande inovação na inteligência artificial no campo da geração de imagens. O CogView4 não possui apenas uma escala de parâmetros de até 600 milhões, mas também realiza suporte total para entrada chinesa e texto chinês para geração de imagens pela primeira vez. É conhecido como "o primeiro modelo de código aberto que pode gerar caracteres chineses na foto". Essa inovação fornece ferramentas poderosas para criadores de conteúdo chinês e promove muito o desenvolvimento da tecnologia de geração de imagens no contexto chinês.
O destaque principal do CogView4 é que ele suporta entrada de palavras pronta para chinês e inglês, especialmente no manuseio de instruções complexas chinesas. Como o primeiro modelo biográfico de código aberto que pode gerar caracteres chineses nas imagens, o CogView4 preenche uma grande lacuna no campo de código aberto. Além disso, o modelo também suporta a geração de imagens de qualquer proporção de aspecto e pode processar a entrada de palavras solicitadas por qualquer comprimento, mostrando flexibilidade e adaptabilidade extremamente alta, atendendo às necessidades de diferentes cenários.
Em termos de arquitetura técnica, o CogView4 foi totalmente atualizado e seu codificador de texto foi atualizado para o GLM-4, apoiando a entrada bilíngue chinesa e inglesa, quebrando completamente a limitação anterior do modelo de código aberto que só suporta inglês. Ao usar pares gráficos bilíngues chineses e ingleses para treinar, a qualidade da geração do CogView4 no contexto chinês foi significativamente melhorada, garantindo sua precisão e fluência ao processar o texto chinês.
Em termos de processamento de texto, o CogView4 abandona o design tradicional de comprimento fixo e adota um esquema dinâmico de comprimento de texto. Quando o texto médio de descrição é de 200 a 300 elementos de palavras, em comparação com a solução tradicional com 512 elementos fixos, a redundância é reduzida em cerca de 50%e a eficiência do treinamento é melhorada em 5%a 30%. Essa inovação não apenas otimiza o uso de recursos de computação, mas também permite que o modelo processe palavras solicitadas de comprimentos variados com mais eficiência, melhorando ainda mais a qualidade e a diversidade de imagens geradas.
O CogView4 suporta a geração de imagens de qualquer resolução, graças a vários avanços tecnológicos. O modelo é treinado com resolução mista, combinada com a codificação de posição rotacional bidimensional e a representação da posição interpolada, que pode se adaptar às necessidades de diferentes tamanhos. Além disso, com base no modelo de difusão de correspondência de fluxo e no planejamento linear de ruído linear parametrizado, o CogView4 melhora ainda mais a qualidade e a diversidade de imagens geradas, fazendo com que ele tenha um desempenho melhor em cenários complexos.
O processo de treinamento do COGView4 é dividido em vários estágios, a partir do treinamento básico de resolução, à adaptação geral da resolução, ao ajuste fino de dados de alta qualidade e, finalmente, a saída otimizada através do alinhamento de preferência humana. Esse processo mantém a arquitetura DIT DIT da par-param, enquanto introduz a normalização independente da camada adaptativa para diferentes modos para garantir a estabilidade e a consistência do modelo em várias tarefas. Esse processo de treinamento refinado permite que o CogView4 atenda melhor às necessidades do usuário ao gerar imagens.
Endereço do projeto: https://github.com/thudm/cogview4