Le 4 mars 2025, Beijing Zhipu Huazhang Technology Co., Ltd. a officiellement publié son dernier modèle graphique biographique open source - CogView4. Ce modèle s'est bien déroulé dans le test de référence DPG Bench, avec un score global supérieur, et est devenu une référence technique dans le modèle littéraire et biographique open source actuel. CogView4 suit non seulement le protocole Apache 2.0, mais est également le premier modèle de génération d'images à prendre en charge le protocole, marquant une nouvelle étape dans la technologie de génération d'images open source.
L'avantage principal de CogView4 est son puissant alignement sémantique complexe et ses capacités suivant les capacités. Il peut traiter l'entrée bilingue chinoise et anglaise de toute longueur et générer des images de toute résolution. Cette fonctionnalité fait que CogView4 a de vastes perspectives d'application dans des domaines créatifs tels que la publicité et de courtes vidéos. Techniquement, CogView4 adopte le GLM-4Encoder avec des compétences bilingues. Grâce à une formation graphique bilingue chinoise et anglaise, il réalise la capacité de saisir des mots rapides bilingues, améliorant davantage le praticité et la flexibilité du modèle.

En termes de génération d'images, CogView4 prend en charge toute durée d'entrée de mots rapides et peut générer des images de toute résolution, améliorant considérablement la liberté de création et l'efficacité de formation. Le modèle utilise le codage de position de rotation bidimensionnel (corde 2D) pour modéliser les informations de position de l'image et prend en charge la génération d'images à différentes résolutions grâce au codage de position interpolée. De plus, CogView4 adopte également le schéma de correspondance de flux pour la modélisation de la génération de diffusion, combinant la planification du bruit dynamique linéaire paramétré pour s'adapter aux exigences de rapport signal / bruit des images avec différentes résolutions et garantir une qualité élevée des images générées.
En termes de conception architecturale, CogView4 poursuit la génération précédente d'architecture DIT de partage et conçoit des couches de tempête adaptative indépendantes pour les modalités de texte et d'image pour obtenir une adaptation efficace entre les modalités. Le modèle adopte une stratégie de formation en plusieurs étapes, notamment une formation de base en résolution, une formation en résolution générale, un réglage fin de données de haute qualité et une formation d'alignement des préférences humaines, garantissant que les images générées ont non seulement un sens esthétique élevé, mais sont également conformes aux préférences esthétiques humaines.
COGVIVVE4 perce également la limite traditionnelle de la longueur des jetons fixes, permettant une limite supérieure de jeton plus élevée et réduit considérablement la redondance du jeton de texte pendant l'entraînement. Lorsque la durée moyenne de la légende de formation est de 200 à 300 jetons, par rapport à la solution traditionnelle de jetons fixes 512, CogView4 réduit la redondance des jetons d'environ 50% et atteint une amélioration de l'efficacité de 5% à 30% dans le stade de formation progressive du modèle, optimisant davantage l'effet d'entraînement du modèle.
De plus, CogView4 prend en charge le protocole Apache 2.0 et ajoutera progressivement un support écologique tel que ControlNet et Comfyui à l'avenir. Un ensemble complet de boîtes à outils finissantes sera bientôt lancée, offrant aux développeurs une expérience utilisateur plus pratique. L'adresse de l'entrepôt open source est: https://github.com/thudm/cogview4, et l'adresse de l'entrepôt du modèle est: https://huggingface.co/thudm/cogview4-6b et https://modelscope.cn/models/zhipuai/cogview4-6b.