腾讯的混元文生图大模型(混元DiT)近期迎来了重要升级,推出了6G显存版本,这一举措使得个人电脑用户也能够轻松运行这一先进的AI模型。新版本不仅与LoRA、ControlNet等插件完美适配至Diffusers库,还新增了对Kohya图形化界面的支持,大大降低了开发者训练个性化LoRA模型的门槛。混元DiT模型升级至1.2版本后,图片的质感和构图都有了显着提升,为用户带来了更加优质的视觉体验。
与此同时,腾讯还开源了混元文生图打标模型“混元Captioner”,该模型支持中英文双语,并针对文生图场景进行了深度优化,能够更准确地理解中文语义,输出结构化、完整且准确的图片描述。此外,混元Captioner还能够识别知名人物和地标,并允许开发者补充个性化背景知识,进一步提升了模型的实用性和灵活性。

混元Captioner模型的开源,为全球的文生图研究者和数据标注人员提供了强大的工具,帮助他们提升图像描述的质量,生成更全面、准确的图片描述,从而提升模型效果。生成的数据集不仅可以用于训练基于混元DiT的模型,也适用于其他视觉模型的训练,进一步推动了AI技术在图像处理领域的发展。
混元DiT模型的三大更新包括小显存版本的推出、Kohya训练界面的接入以及模型升级至1.2版本,这些都进一步降低了使用门槛并提升了图片质量。混元DiT模型的生成图片质感更佳,但之前对显存的高要求让许多开发者望而却步。现在,混元DiT推出了小显存版本,最低仅需6G显存即可运行,且经过与Hugging Face的合作,小显存版本和相关插件已经适配到Diffusers库中,简化了使用成本。
Kohya是一个开源的轻量化模型微调训练服务,提供了图形化界面,广泛用于扩散模型类文生图模型的训练。用户可以通过Kohya完成模型的全参精调和LoRA训练,无需编写代码,极大地简化了开发者的工作流程。
混元Captioner模型通过构建结构化的图片描述体系,并通过多种来源提升描述的完整性,注入了大量背景知识,使得输出的描述更准确、完整。这些优化使得混元DiT成为最受欢迎的国产DiT开源模型之一,其Github Star数已经超过2.6k,充分证明了其在开发者社区中的受欢迎程度。
官网
https://dit.hunyuan.tencent.com/
代码
https://github.com/Tencent/HunyuanDiT
模型
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf