Dans le domaine de la génération d'images, la technologie de génération d'images multicouches mène une révolution qui a complètement changé la façon dont les utilisateurs interagissent avec les modèles génératifs. Cette technologie permet aux utilisateurs d'isoler, de sélectionner et de modifier des couches d'image spécifiques, offrant ainsi une liberté créative sans précédent. Récemment, l'équipe de recherche de Microsoft a lancé une technologie innovante appelée "transformateur de région anonyme" (ART), qui peut générer directement des images transparentes multicouches variables basées sur des repères de texte globaux et des dispositions régionales anonymes.

La conception d'Art est inspirée de la «théorie du schéma», qui permet au modèle génératif de décider indépendamment quelles informations visuelles s'alignent avec quelles informations texte en adoptant la disposition régionale anonyme. Cette approche contraste fortement avec la disposition sémantique traditionnelle. Les dispositions sémantiques traditionnelles nécessitent généralement une correspondance claire, tandis que la disposition des zones anonymes d'ART offre une plus grande flexibilité, ce qui rend le processus de génération plus intelligent et plus efficace.
Il convient de mentionner que l'art introduit un mécanisme de recadrage basé sur la zone de couche par couche, qui ne sélectionne que des informations visuelles liées à chaque zone anonyme, réduisant ainsi considérablement le coût du calcul de l'attention. Cette méthode accélère non seulement la vitesse de génération, ce qui le rend plus de 12 fois plus rapide que la méthode d'attention complète, mais réduit également efficacement les conflits entre les couches et peut gérer la génération d'images à plus de 50 niveaux différents. Cette capacité de traitement efficace fournit un fort support pour les tâches de génération d'images complexes.
De plus, ART a également proposé un autoencoder d'images transparentes multicouches de haute qualité qui prend en charge la transparence des images multicouches variables directement codées et décodées de manière conjointe. Cette conception innovante offre de nouvelles possibilités pour un contrôle précis et une génération de couches évolutive, ce qui stimule davantage le développement d'une création de contenu interactive. Grâce à cette technologie, les utilisateurs peuvent contrôler tous les niveaux d'images de manière plus flexible et obtenir un montage et une création plus raffinés.
Projet: https://art-msra.github.io/
Points clés:
L'art peut générer directement des images transparentes multicouches basées sur des invites de texte globales et une disposition régionale anonyme.
Le mécanisme de recadrage de la zone couche par couche est adopté pour améliorer considérablement l'efficacité de la génération d'images, ce qui est 12 fois plus rapide que la méthode traditionnelle.
La nouvelle autoencoder de haute qualité prend en charge le contrôle précis et la génération d'images transparentes multicouches, favorisant la création de contenu interactive.