2025年3月4日,北京智譜華章科技有限公司正式發布了其最新研發的開源文生圖模型——CogView4。這一模型在DPG-Bench基準測試中表現卓越,綜合評分位居榜首,成為當前開源文生圖模型中的技術標杆。 CogView4不僅遵循Apache2.0協議,還是首個支持該協議的圖像生成模型,標誌著開源圖像生成技術邁入了一個新的里程碑。
CogView4的核心優勢在於其強大的複雜語義對齊和指令跟隨能力。它能夠處理任意長度的中英雙語輸入,並生成任意分辨率的圖像。這一特性使得CogView4在廣告、短視頻等創意領域具有廣泛的應用前景。技術上,CogView4採用了具備雙語能力的GLM-4encoder,通過中英雙語圖文訓練,實現了雙語提示詞輸入能力,進一步提升了模型的實用性和靈活性。

在圖像生成方面,CogView4支持任意長度的提示詞輸入,能夠生成任意分辨率的圖像,極大地提升了創作自由度和訓練效率。模型採用了二維旋轉位置編碼(2D RoPE)來建模圖像位置信息,並通過內插位置編碼支持不同分辨率的圖像生成。此外,CogView4還採用了Flow-matching方案進行擴散生成建模,結合參數化的線性動態噪聲規劃,以適應不同分辨率圖像的信噪比需求,確保生成圖像的高質量。
在架構設計上,CogView4延續了上一代的Share-param DiT架構,並為文本和圖像模態分別設計了獨立的自適應LayerNorm層,以實現模態間的高效適配。模型採用多階段訓練策略,包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練,確保生成的圖像不僅具有高美感,還符合人類的審美偏好。
CogView4還突破了傳統固定token長度的限制,允許更高的token上限,並顯著減少了訓練過程中的文本token冗餘。當訓練caption的平均長度在200-300token時,與固定512token的傳統方案相比,CogView4減少了約50%的token冗餘,並在模型遞進訓練階段實現了5%-30%的效率提升,進一步優化了模型的訓練效果。
此外,CogView4支持Apache2.0協議,後續將陸續增加ControlNet、ComfyUI等生態支持,全套的微調工具包也即將推出,為開發者提供更加便捷的使用體驗。開源倉庫地址為:https://github.com/THUDM/CogView4,模型倉庫地址為:https://huggingface.co/THUDM/CogView4-6B和https://modelscope.cn/models/ZhipuAI/CogView4-6B。