Rapports de l'éditeur de downcodes : L'équipe InstantX, en collaboration avec les équipes de recherche de l'Université des sciences et technologies de Nanjing, de l'Université de Beihang et de l'Université de Pékin, a développé conjointement un nouveau modèle de transfert de style appelé CSGO. Ce modèle vise à briser le goulot d'étranglement de la technologie de génération d'images, notamment pour réaliser des améliorations significatives dans l'intégration du contenu et du style. Le modèle CSGO prend en charge trois modes de transfert de style, couvrant une variété de scénarios d'application tels que des images et des images, des images et du texte et des images d'édition de texte, démontrant sa puissante fonctionnalité et sa flexibilité. Examinons de plus près cet impressionnant modèle d’IA.
Récemment, l'équipe InstantX, en collaboration avec des équipes de recherche de l'Université des sciences et technologies de Nanjing, de l'Université de Beihang et de l'Université de Pékin, a développé conjointement un nouveau modèle de transfert de style appelé CSGO, visant à améliorer la technologie de génération d'images, notamment dans la combinaison de contenu et de style.

CSGO prend principalement en charge 3 modes de migration de style, comme suit :
1. Images de contenu + images de référence de style pour synthétiser les images de style du contenu. Par exemple, dans le cas suivant, si vous donnez le style de l'image originale dont le style doit être modifié, tel que "ours, maison", puis donnez l'image de référence de style, vous pouvez changer le style de l'image originale en référence image de style.

2. Images de référence de style + invites de texte pour synthétiser des images de style avec du contenu textuel. Par exemple, dans le cas suivant, si une image de style de référence est donnée et qu'une invite de texte est donnée, telle que « un chat, un chien, un homme, un panda », l'image de style de contenu correspondante peut être générée.

3) Modifiez l'objet spécifié dans l'image via le texte.

Le cœur du modèle CSGO réside dans son processus unique de construction de données. L’équipe de recherche a soigneusement conçu un pipeline de génération de données et de nettoyage automatique pour créer un ensemble de données de transfert de style à grande échelle appelé IMAGStyle. Cet ensemble de données contient 210 000 triples d’images et est devenu une ressource importante pour la recherche universitaire et l’exploration de la technologie de génération d’images.
Le concept de conception de ce modèle est très nouveau. CSGO peut clairement distinguer les caractéristiques de contenu et de style pendant le processus de génération d'images. L'avantage de ce modèle, selon les chercheurs, réside dans sa méthode de formation de bout en bout, ce qui signifie qu'aucun réglage fin n'est nécessaire pendant la phase d'inférence.
Dans le même temps, un autre point fort du modèle CSGO est qu'il conserve la capacité de génération du modèle texte-image d'origine sans formation d'UNet. Grâce à ces innovations, CSGO réalise un transfert de style basé sur l'image, une synthèse de style basée sur le texte et une synthèse de style basée sur l'édition de texte.
En termes de résultats expérimentaux, CSGO a obtenu de très bons résultats. Les chercheurs ont fourni une série de données de comparaison quantitatives et visuelles, effectué une comparaison complète avec les dernières méthodes existantes et démontré les avantages de CSGO en termes de capacités de contrôle de style.
Souligner:
Le modèle CSGO a généré avec succès l'ensemble de données IMAGStyle contenant 210 000 triples d'images grâce à un pipeline de construction de données innovant.
Le modèle permet une séparation claire du contenu et du style et prend en charge plusieurs méthodes de génération, y compris le transfert de style basé sur l'image et le texte.
? Les résultats expérimentaux montrent que CSGO surpasse les technologies existantes en termes de capacités de contrôle de style, démontrant un nouveau niveau de génération d'images.
L’émergence du modèle CSGO marque une nouvelle avancée dans la technologie de génération d’images. Ses performances exceptionnelles en matière de transfert de style et ses méthodes innovantes de construction de données fournissent de nouvelles orientations et inspirations pour les futures recherches sur la génération d’images. L'éditeur de Downcodes espère que le modèle CSGO sera appliqué dans davantage de domaines et nous apportera une expérience visuelle plus excitante !