El modelo de imagen de imagen de código abierto de Microsoft, que puede generar imágenes transparentes de varias capas - artículos de IA

Autor：Eve Cole Fecha de actualización：2025-05-26 20:50:01

En el campo de la generación de imágenes, la tecnología de generación de imágenes de múltiples capas está liderando una revolución que ha cambiado por completo la forma en que los usuarios interactúan con los modelos generativos. Esta tecnología permite a los usuarios aislar, seleccionar y editar capas de imágenes específicas, proporcionando así una libertad creativa sin precedentes. Recientemente, el equipo de investigación de Microsoft lanzó una tecnología innovadora llamada "Transformador de región anónima" (ART), que puede generar directamente imágenes transparentes de múltiples capas variables basadas en señales de texto globales y diseños regionales anónimos.

El diseño de Art está inspirado en la "teoría del esquema", que permite que el modelo generativo decida independientemente qué información visual se alinea con qué información de texto adoptando el diseño regional anónimo. Este enfoque contrasta fuertemente con el diseño semántico tradicional. Los diseños semánticos tradicionales generalmente requieren una correspondencia clara, mientras que el diseño de área anónima de Art proporciona una mayor flexibilidad, lo que hace que el proceso de generación sea más inteligente y eficiente.

Vale la pena mencionar que el arte introduce un mecanismo de cultivo basado en área capa por capa, que solo selecciona información visual relacionada con cada área anónima, reduciendo así significativamente el costo del cálculo de la atención. Este método no solo acelera la velocidad de generación, lo que lo hace más de 12 veces más rápido que el método de atención completa, sino que también reduce efectivamente los conflictos entre las capas y puede manejar la generación de imágenes en más de 50 niveles diferentes. Esta capacidad de procesamiento eficiente proporciona un fuerte soporte para tareas complejas de generación de imágenes.

Además, el ART también propuso un autoencoder de imagen transparente multicapa de alta calidad que admite la transparencia de imágenes variables de múltiples capas directamente codificadas y decodificadas de manera conjunta. Este diseño innovador proporciona nuevas posibilidades para el control preciso y la generación de capa escalable, lo que impulsa aún más el desarrollo de la creación de contenido interactivo. A través de esta tecnología, los usuarios pueden controlar todos los niveles de imágenes de manera más flexible y lograr una edición y creación más refinadas.

Proyecto: https://art-msra.github.io/

Puntos clave:

El ART puede generar directamente imágenes transparentes de múltiples capas basadas en indicaciones de texto globales y un diseño regional anónimo.

El mecanismo de cultivo de área capa por capa se adopta para mejorar significativamente la eficiencia de generación de imágenes, que es 12 veces más rápido que el método tradicional.

El nuevo autoencoder de alta calidad admite el control preciso y la generación de imágenes transparentes de múltiples capas, promoviendo la creación de contenido interactivo.