El 4 de marzo de 2025, Beijing Zhipu Huazhang Technology Co., Ltd. lanzó oficialmente su último modelo de gráficos biográficos de código abierto - COGVIEW4. Este modelo se desempeñó excelentemente en la prueba de referencia DPG-Bench, con una puntuación general superior, y se convirtió en un punto de referencia técnico en el modelo literario y biográfico de código abierto actual. COGVIEW4 no solo sigue el protocolo Apache 2.0, sino que también es el primer modelo de generación de imágenes en admitir el protocolo, marcando un nuevo hito en la tecnología de generación de imágenes de código abierto.
La ventaja central de COGVIEW4 es su poderosa alineación semántica e instrucción semántica compleja que siguen las capacidades. Puede procesar la entrada bilingüe china e inglesa de cualquier longitud y generar imágenes de cualquier resolución. Esta característica hace que COGVIEW4 tenga amplias perspectivas de aplicaciones en campos creativos, como publicidad y videos cortos. Técnicamente, COGVIEW4 adopta el GLM-4Encoder con habilidades bilingües. A través de la formación gráfica bilingüe china e inglesa, se da cuenta de la capacidad de ingresar palabras rápidas bilingües, mejorando aún más la practicidad y la flexibilidad del modelo.

En términos de generación de imágenes, COGView4 admite cualquier longitud de entrada de palabras rápidas, y puede generar imágenes de cualquier resolución, mejorando en gran medida la libertad creativa y la eficiencia de la capacitación. El modelo utiliza la codificación de posición de rotación bidimensional (cuerda 2D) para modelar la información de posición de la imagen, y admite la generación de imágenes en diferentes resoluciones a través de la codificación de posición interpolada. Además, COGVIEW4 también adopta el esquema de coincidencia de flujo para el modelado de generación de difusión, combinando la planificación de ruido dinámico lineal parametrizado para adaptarse a los requisitos de relación señal / ruido de las imágenes con diferentes resoluciones y garantizar la alta calidad de las imágenes generadas.
En términos de diseño arquitectónico, COGVIEW4 continúa la generación anterior de arquitectura DIT de compartir param y diseña capas de tormenta adaptativas independientes para modalidades de texto e imágenes para lograr una adaptación eficiente entre las modalidades. El modelo adopta una estrategia de capacitación en varias etapas, que incluye capacitación básica en resolución, capacitación de resolución general, datos de alta calidad ajustados y entrenamiento de alineación de preferencias humanas, asegurando que las imágenes generadas no solo tengan un sentido estético alto, sino que también se ajusten a las preferencias estéticas humanas.
COGVIEW4 también atraviesa el límite tradicional de longitud de token fijo, lo que permite un límite superior superior de token más alto, y reduce significativamente la redundancia de token de texto durante el entrenamiento. Cuando la duración promedio de la leyenda de entrenamiento es de 200-300 token, en comparación con la solución tradicional de 512 tokens fijos, COGVIEW4 reduce la redundancia de tokens en aproximadamente un 50% y logra una mejora de eficiencia del 5% -30% en la etapa de entrenamiento progresivo del modelo, optimizando aún más el efecto de entrenamiento del modelo.
Además, COGVIEW4 admite el protocolo Apache 2.0, y agregará gradualmente soporte ecológico como Controlnet y Comfyui en el futuro. Pronto se lanzará un conjunto completo de kits de herramientas de ajuste fino, proporcionando a los desarrolladores una experiencia de usuario más conveniente. La dirección de almacenamiento de código abierto es: https://github.com/thudm/cogview4, y la dirección de modelos de almacén es: https://huggingface.co/thudm/cogview4-6b y https://modelscope.cn/models/zhipuai/cogview4-6b.