字节跳动与中国和新加坡大学的研究团队联合推出了一款名为PhotoDoodle的新型AI图像编辑系统,这款系统正在重新定义我们对图像创作的认知。基于Flux.1模型的PhotoDoodle,能够从少量样本中学习艺术风格,并精确执行特定的编辑指令,为创意表达开辟了全新的可能性。
PhotoDoodle的核心技术是研究团队开发的OmniEditor系统,该系统巧妙地利用了LoRA(低秩自适应)技术,对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。这种方法不需要彻底改变原始模型的权重,而是通过添加专用的小型矩阵,实现了从微小概念调整到完整风格转换的能力。
研究人员随后采用了一种名为EditLoRA的变体来训练OmniEditor,使其能够复制独特的艺术风格。通过与艺术家合作创建的精选图像对,系统得以掌握每种艺术风格的精妙之处。

PhotoDoodle最引人注目的创新是“位置编码克隆”技术。这项技术使AI能够记住原始图像中每个像素的确切位置,从而在添加新元素时保持画面构图的完整性,并确保新添加的元素自然融入背景。
这解决了传统图像编辑AI的关键痛点:要么改变整个图像风格,要么只能编辑局部区域,难以在保持原有视角和背景的同时融入新的装饰元素。而PhotoDoodle无需额外参数训练就能实现这一突破,大大提高了处理效率。

在实际测试中,PhotoDoodle轻松应对从“让猫变白一点”到“添加一只爬上建筑物的粉红色怪物”等各种复杂指令。与现有技术相比,它在图像与文本描述相似度等基准测试中表现卓越,无论是针对性编辑还是全局图像更改,都远超同类产品。

目前,PhotoDoodle需要数十对图像和数千个训练步骤才能掌握新风格。研究团队已将目光投向更高效的单图像训练方法,并发布了一个包含六种不同艺术风格和300多对图像的数据集,相关代码也已在GitHub上开源,为未来研究提供了坚实基础。
地址:https://github.com/showlab/PhotoDoodle