Le dernier modèle culturel et biographique open source CogView4 lancé par Zhipu AI est officiellement publié, marquant une autre percée majeure de l'intelligence artificielle dans le domaine de la génération d'images. CogView4 a non seulement une échelle de paramètres allant jusqu'à 600 millions, mais réalise également la prise en charge complète des entrées chinoises et du texte chinois à la génération d'images pour la première fois. Il est connu comme "le premier modèle open source qui peut générer des caractères chinois dans l'image". Cette innovation fournit des outils puissants aux créateurs de contenu chinois et promeut considérablement le développement de la technologie de génération d'images dans le contexte chinois.
Le point culminant de CogView4 est qu'il prend en charge la contribution rapide des mots chinois et anglais, en particulier dans la gestion des instructions chinoises complexes. En tant que premier modèle biographique open source qui peut générer des caractères chinois dans les images, CogView4 comble un grand écart dans le domaine open source. De plus, le modèle prend également en charge la génération d'images de tout rapport d'aspect et peut traiter l'entrée de mot rapide de toute longueur, montrant une flexibilité et une adaptabilité extrêmement élevées, répondant aux besoins de différents scénarios.
En termes d'architecture technique, CogView4 a été entièrement mis à niveau et son encodeur de texte a été mis à niveau en GLM-4, soutenant l'entrée bilingue chinoise et anglaise, brisant complètement la limitation précédente du modèle open source qui ne prend en charge que l'anglais. En utilisant des paires graphiques bilingues chinoises et anglaises pour s'entraîner, la qualité de génération de CogView4 dans le contexte chinois a été considérablement améliorée, garantissant sa précision et sa maîtrise lors du traitement du texte chinois.
En termes de traitement du texte, CogView4 abandonne la conception traditionnelle de longueur fixe et adopte un schéma de longueur de texte dynamique. Lorsque le texte de description moyen est de 200 à 300 éléments de mots, par rapport à la solution traditionnelle avec des éléments fixes de 512 mots, la redondance est réduite d'environ 50% et l'efficacité de la formation est améliorée de 5% à 30%. Cette innovation optimise non seulement l'utilisation des ressources informatiques, mais permet également au modèle de traiter plus efficacement des mots proches de différentes longueurs, ce qui améliore davantage la qualité et la diversité des images générées.
CogView4 prend en charge la génération d'images de toute résolution, grâce à plusieurs percées technologiques. Le modèle est formé avec une résolution mixte, combinée à un codage de position de rotation bidimensionnelle et à une représentation de position interpolée, qui peut s'adapter aux besoins de différentes tailles. De plus, sur la base du modèle de diffusion de correspondance de flux et de la planification du bruit dynamique linéaire paramétré, CogView4 améliore en outre la qualité et la diversité des images générées, ce qui le rend meilleur dans des scénarios complexes.
Le processus de formation de CogView4 est divisé en plusieurs étapes, à partir de la formation de résolution de base, à l'adaptation de la résolution générale, à un réglage fin de données de haute qualité et finalement à une sortie optimisée par l'alignement des préférences humaines. Ce processus conserve l'architecture DIT de partage-param, tout en introduisant une normalisation indépendante de la couche adaptative pour différents modes pour assurer la stabilité et la cohérence du modèle dans plusieurs tâches. Ce processus de formation raffiné permet à CogView4 de mieux répondre aux besoins des utilisateurs lors de la génération d'images.
Adresse du projet: https://github.com/thudm/cogview4