智谱AI最新推出的开源文生图模型CogView4正式发布,标志着人工智能在图像生成领域的又一重大突破。CogView4不仅拥有高达6亿的参数规模,还首次实现了对中文输入和中文文本到图像生成的全方位支持,被誉为“首个能在画面中生成汉字的开源模型”。这一创新为中文内容创作者提供了强大的工具,极大地推动了中文语境下的图像生成技术的发展。
CogView4的核心亮点在于其支持中英双语提示词输入,尤其是在处理复杂中文指令方面表现出色。作为首个能够在图像中生成汉字的开源文生图模型,CogView4填补了开源领域的一大空白。此外,该模型还支持生成任意宽高比的图片,并能处理任意长度的提示词输入,展现出极高的灵活性和适应性,满足了不同场景下的需求。
在技术架构上,CogView4进行了全面升级,其文本编码器升级为GLM-4,支持中英双语输入,彻底打破了此前开源模型仅支持英文的局限。通过使用中英双语图文对进行训练,CogView4在中文语境下的生成质量得到了显著提升,确保了其在处理中文文本时的准确性和流畅性。
在文本处理方面,CogView4摒弃了传统的固定长度设计,采用了动态文本长度方案。当平均描述文本为200-300个词元时,相较于固定512词元的传统方案,冗余减少了约50%,训练效率提升了5%-30%。这一创新不仅优化了计算资源的使用,还使得模型能够更高效地处理长短不一的提示词,进一步提升了生成图像的质量和多样性。
CogView4支持生成任意分辨率的图像,这得益于多项技术突破。模型采用混合分辨率训练,结合二维旋转位置编码和内插位置表示,能够适应不同尺寸的需求。此外,基于Flow-matching扩散模型和参数化线性动态噪声规划,CogView4进一步提升了生成图像的质量和多样性,使其在复杂场景下的表现更加出色。
CogView4的训练流程分为多个阶段,从基础分辨率训练开始,到泛分辨率适配,再到高质量数据微调,最后通过人类偏好对齐优化输出。这一过程保留了Share-param DiT架构,同时为不同模态引入独立的自适应层归一化,确保模型在多种任务中的稳定性与一致性。这一精细化的训练流程使得CogView4在生成图像时能够更好地满足用户的需求。
项目地址:https://github.com/THUDM/CogView4