字节跳动近期低调推出了一款名为InfiniteYou(InfU)的图像生成工具,这款工具的核心功能是将文本描述转化为具有个人身份特征的高质量图像。与传统的换脸应用不同,InfiniteYou不仅能够灵活变换场景和内容,还能精准保留用户的身份特征,使得生成的图像既符合描述又具有高度的个性化。

InfiniteYou的技术核心是InfuseNet,这是一个能够将用户身份特征巧妙注入到Diffusion Transformer(DiT)先进图像生成模型中的技术。通过“残差连接”这种精细操作,InfuseNet在增强人脸相似度的同时,不破坏原有的生成能力,从而实现了高质量的图像生成。
此外,InfiniteYou的研发过程经历了多阶段训练,包括预训练和使用合成的单人多样本(SPMS)数据进行监督微调(SFT)。这种精细化的训练策略显著提升了文本和图像的对齐度,使得生成的图像更符合文字描述,同时提高了图像质量和美观度,有效缓解了“换脸”后常见的面部复制粘贴问题。
字节跳动还发布了aes_stage2和sim_stage1两个模型版本,分别注重文图对齐度和人脸相似度,用户可以根据自己的需求选择合适的版本。通过对比实验,InfiniteYou在身份相似性、文本图像对齐、图像质量和美观度等方面均超越了现有的先进方法,如FLUX.1-dev IP-Adapter和PuLID-FLUX。
InfiniteYou还具备“即插即用”的特性,可以与FLUX.1-dev的各种变体、ControlNets和LoRAs等现有工具无缝集成,提供更强的可控性和定制化能力。这种强大的兼容性将为更广泛的社区做出有价值的贡献。
需要注意的是,InfiniteYou目前是基于Creative Commons Attribution-NonCommercial4.0International Public License发布的,仅供学术研究使用。下载和使用相关的模型(如InsightFace的人脸模型、FLUX.1-dev基础模型和LoRA等)必须遵守其原始许可。同时,开发者也希望用户能够遵守当地法律法规,负责任地使用这项技术,避免任何潜在的滥用行为。
项目入口:https://top.aibase.com/tool/infiniteyou