В области генерации изображений многослойная технология генерации изображений ведет революцию, которая полностью изменила способ взаимодействия пользователей с генеративными моделями. Эта технология позволяет пользователям изолировать, выбирать и редактировать определенные слои изображений, обеспечивая тем самым беспрецедентную творческую свободу. Недавно исследовательская группа Microsoft запустила инновационную технологию под названием «Anonymous Region Transformer» (ART), которая может напрямую генерировать переменные многослойные прозрачные изображения на основе глобальных текстовых сигналов и анонимных региональных макетов.

Дизайн Art вдохновлен «Теорией схемы», которая позволяет генеративной модели независимо решать, какая визуальная информация выравнивается, с которой текстовая информация, используя анонимную региональную планировку. Этот подход резко контрастирует с традиционной семантической планировкой. Традиционные семантические макеты обычно требуют четкой переписки, в то время как анонимная планировка ART обеспечивает большую гибкость, что делает процесс генерации более интеллектуальным и эффективным.
Стоит отметить, что Art вводит механизм обрезки на основе слоев, основанный на площади, который выбирает только визуальную информацию, связанную с каждой анонимной областью, тем самым значительно снижая расчет затрат внимания. Этот метод не только ускоряет скорость генерации, делая его более чем в 12 раз быстрее, чем метод внимания, но также эффективно снижает конфликты между слоями и может обрабатывать генерацию изображения на более чем 50 различных уровнях. Эта эффективная возможность обработки обеспечивает сильную поддержку сложных задач генерации изображений.
Кроме того, ART также предложил высококачественный многослойный прозрачный аутокодер с многослойным прозрачным изображением, который поддерживает прозрачность переменных многослойных изображений, непосредственно кодируемых и декодированных в совместном способе. Этот инновационный дизайн предоставляет новые возможности для точного управления и масштабируемого генерации слоев, что еще больше способствует разработке интерактивного создания контента. Благодаря этой технологии пользователи могут более гибко контролировать все уровни изображений и достигать более утонченного редактирования и создания.
Проект: https://art-msra.github.io/
Ключевые моменты:
Искусство может напрямую генерировать многослойные прозрачные изображения на основе глобальных текстовых подсказок и анонимного регионального макета.
Механизм обрезки площади за слоем применяется для значительного повышения эффективности генерации изображений, что в 12 раз быстрее, чем традиционный метод.
Новый высококачественный AutoEncoder поддерживает точный контроль и генерацию многослойных прозрачных изображений, способствующих созданию интерактивного контента.