Arte do modelo de imagem de código aberto da Microsoft, que pode gerar imagens transparentes de várias camadas - artigos de AI

Autor：Eve Cole Data da Última Atualização：2025-05-26 20:50:01

No campo da geração de imagens, a tecnologia de geração de imagens de várias camadas está liderando uma revolução que mudou completamente a maneira como os usuários interagem com modelos generativos. Essa tecnologia permite que os usuários isolem, selecionem e editem camadas de imagem específicas, fornecendo assim liberdade criativa sem precedentes. Recentemente, a equipe de pesquisa da Microsoft lançou uma tecnologia inovadora chamada "Anonymous Region Transformer" (ART), que pode gerar diretamente imagens transparentes variáveis de várias camadas com base em pistas de texto globais e layouts regionais anônimos.

O design da arte é inspirado na "teoria do esquema", que permite que o modelo generativo decida independentemente quais informações visuais se alinham com as informações do texto adotando um layout regional anônimo. Essa abordagem contrasta fortemente com o layout semântico tradicional. Os layouts semânticos tradicionais geralmente exigem correspondência clara, enquanto o layout da área anônima da ART oferece maior flexibilidade, tornando o processo de geração mais inteligente e eficiente.

Vale ressaltar que o ART apresenta um mecanismo de cultivo baseado em área de camada por camada, que seleciona apenas informações visuais relacionadas a cada área anônima, reduzindo significativamente o cálculo do custo da atenção. Esse método não apenas acelera a velocidade de geração, tornando -o mais de 12 vezes mais rápido que o método de atenção total, mas também reduz efetivamente os conflitos entre as camadas e pode lidar com a geração de imagens em mais de 50 níveis diferentes. Esse recurso de processamento eficiente fornece um forte suporte para tarefas complexas de geração de imagens.

Além disso, a ART também propôs um autoencoder de imagem transparente de várias camadas de alta qualidade que suporta a transparência de imagens variáveis de várias camadas codificadas e decodificadas diretamente de maneira articular. Esse design inovador fornece novas possibilidades para controle preciso e geração de camadas escaláveis, impulsionando ainda mais o desenvolvimento da criação interativa de conteúdo. Através dessa tecnologia, os usuários podem controlar todos os níveis de imagens com mais flexibilidade e obter edição e criação mais refinadas.

Projeto: https://art-msra.github.io/

Pontos -chave:

A arte pode gerar diretamente imagens transparentes de várias camadas com base em avisos de texto globais e no layout regional anônimo.

O mecanismo de cultivo de área de camada por camada é adotado para melhorar significativamente a eficiência da geração de imagens, 12 vezes mais rápida que o método tradicional.

O novo autoencoder de alta qualidade suporta o controle e a geração precisos de imagens transparentes de várias camadas, promovendo a criação de conteúdo interativo.