2025年3月4日,北京智谱华章科技有限公司正式发布了其最新研发的开源文生图模型——CogView4。这一模型在DPG-Bench基准测试中表现卓越,综合评分位居榜首,成为当前开源文生图模型中的技术标杆。CogView4不仅遵循Apache2.0协议,还是首个支持该协议的图像生成模型,标志着开源图像生成技术迈入了一个新的里程碑。
CogView4的核心优势在于其强大的复杂语义对齐和指令跟随能力。它能够处理任意长度的中英双语输入,并生成任意分辨率的图像。这一特性使得CogView4在广告、短视频等创意领域具有广泛的应用前景。技术上,CogView4采用了具备双语能力的GLM-4encoder,通过中英双语图文训练,实现了双语提示词输入能力,进一步提升了模型的实用性和灵活性。

在图像生成方面,CogView4支持任意长度的提示词输入,能够生成任意分辨率的图像,极大地提升了创作自由度和训练效率。模型采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。此外,CogView4还采用了Flow-matching方案进行扩散生成建模,结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求,确保生成图像的高质量。
在架构设计上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计了独立的自适应LayerNorm层,以实现模态间的高效适配。模型采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练,确保生成的图像不仅具有高美感,还符合人类的审美偏好。
CogView4还突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300token时,与固定512token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升,进一步优化了模型的训练效果。
此外,CogView4支持Apache2.0协议,后续将陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出,为开发者提供更加便捷的使用体验。开源仓库地址为:https://github.com/THUDM/CogView4,模型仓库地址为:https://huggingface.co/THUDM/CogView4-6B和https://modelscope.cn/models/ZhipuAI/CogView4-6B。