在图像生成领域,多层图像生成技术正在引领一场革命,它彻底改变了用户与生成模型之间的互动方式。这项技术允许用户对特定的图像层进行隔离、选择和编辑,从而提供了前所未有的创作自由。最近,微软的研究团队推出了一项名为“Anonymous Region Transformer”(ART)的创新技术,这项技术能够根据全球文本提示和匿名区域布局,直接生成可变的多层透明图像。

ART的设计灵感来源于“图式理论”,它通过采用匿名区域布局,使生成模型能够自主决定哪些视觉信息与哪些文本信息对齐。这种方法与传统的语义布局形成了鲜明对比。传统的语义布局通常需要明确的对应关系,而ART的匿名区域布局则提供了更大的灵活性,使得生成过程更加智能和高效。
值得一提的是,ART引入了一种逐层区域裁剪机制,这种机制只选择与每个匿名区域相关的视觉信息,从而显着降低了注意力计算的成本。这种方法不仅加快了生成速度,使其比全注意力方法快12倍以上,还有效减少了图层之间的冲突,能够处理50个以上不同层次的图像生成。这种高效的处理能力为复杂的图像生成任务提供了强有力的支持。
此外,ART还提出了一种高质量的多层透明图像自编码器,支持以联合方式直接编码和解码可变多层图像的透明度。这一创新设计为精确控制和可扩展的层生成提供了新的可能性,进一步推动了交互式内容创作的发展。通过这种技术,用户可以更加灵活地控制图像的各个层次,实现更加精细的编辑和创作。
项目:https://art-msra.github.io/
划重点:
ART可根据全球文本提示和匿名区域布局,直接生成多层透明图像。
采用逐层区域裁剪机制,显着提高了图像生成效率,比传统方法快12倍。
新型高质量自编码器支持多层透明图像的精确控制与生成,推动交互式内容创作。