微软开源图片模型ART，可生成多图层透明图片 - AI文章

作者：Eve Cole 更新时间：2025-05-26 20:50:01

在图像生成领域，多层图像生成技术正在引领一场革命，它彻底改变了用户与生成模型之间的互动方式。这项技术允许用户对特定的图像层进行隔离、选择和编辑，从而提供了前所未有的创作自由。最近，微软的研究团队推出了一项名为“Anonymous Region Transformer”（ART）的创新技术，这项技术能够根据全球文本提示和匿名区域布局，直接生成可变的多层透明图像。

ART的设计灵感来源于“图式理论”，它通过采用匿名区域布局，使生成模型能够自主决定哪些视觉信息与哪些文本信息对齐。这种方法与传统的语义布局形成了鲜明对比。传统的语义布局通常需要明确的对应关系，而ART的匿名区域布局则提供了更大的灵活性，使得生成过程更加智能和高效。

值得一提的是，ART引入了一种逐层区域裁剪机制，这种机制只选择与每个匿名区域相关的视觉信息，从而显着降低了注意力计算的成本。这种方法不仅加快了生成速度，使其比全注意力方法快12倍以上，还有效减少了图层之间的冲突，能够处理50个以上不同层次的图像生成。这种高效的处理能力为复杂的图像生成任务提供了强有力的支持。

此外，ART还提出了一种高质量的多层透明图像自编码器，支持以联合方式直接编码和解码可变多层图像的透明度。这一创新设计为精确控制和可扩展的层生成提供了新的可能性，进一步推动了交互式内容创作的发展。通过这种技术，用户可以更加灵活地控制图像的各个层次，实现更加精细的编辑和创作。

项目:https://art-msra.github.io/

划重点:

ART可根据全球文本提示和匿名区域布局，直接生成多层透明图像。

采用逐层区域裁剪机制，显着提高了图像生成效率，比传统方法快12倍。

新型高质量自编码器支持多层透明图像的精确控制与生成，推动交互式内容创作。