智譜AI最新推出的開源文生圖模型CogView4正式發布,標誌著人工智能在圖像生成領域的又一重大突破。 CogView4不僅擁有高達6億的參數規模,還首次實現了對中文輸入和中文文本到圖像生成的全方位支持,被譽為“首個能在畫面中生成漢字的開源模型”。這一創新為中文內容創作者提供了強大的工具,極大地推動了中文語境下的圖像生成技術的發展。
CogView4的核心亮點在於其支持中英雙語提示詞輸入,尤其是在處理複雜中文指令方面表現出色。作為首個能夠在圖像中生成漢字的開源文生圖模型,CogView4填補了開源領域的一大空白。此外,該模型還支持生成任意寬高比的圖片,並能處理任意長度的提示詞輸入,展現出極高的靈活性和適應性,滿足了不同場景下的需求。
在技術架構上,CogView4進行了全面升級,其文本編碼器升級為GLM-4,支持中英雙語輸入,徹底打破了此前開源模型僅支持英文的局限。通過使用中英雙語圖文對進行訓練,CogView4在中文語境下的生成質量得到了顯著提升,確保了其在處理中文文本時的準確性和流暢性。
在文本處理方面,CogView4摒棄了傳統的固定長度設計,採用了動態文本長度方案。當平均描述文本為200-300個詞元時,相較於固定512詞元的傳統方案,冗餘減少了約50%,訓練效率提升了5%-30%。這一創新不僅優化了計算資源的使用,還使得模型能夠更高效地處理長短不一的提示詞,進一步提升了生成圖像的質量和多樣性。
CogView4支持生成任意分辨率的圖像,這得益於多項技術突破。模型採用混合分辨率訓練,結合二維旋轉位置編碼和內插位置表示,能夠適應不同尺寸的需求。此外,基於Flow-matching擴散模型和參數化線性動態噪聲規劃,CogView4進一步提升了生成圖像的質量和多樣性,使其在復雜場景下的表現更加出色。
CogView4的訓練流程分為多個階段,從基礎分辨率訓練開始,到泛分辨率適配,再到高質量數據微調,最後通過人類偏好對齊優化輸出。這一過程保留了Share-param DiT架構,同時為不同模態引入獨立的自適應層歸一化,確保模型在多種任務中的穩定性與一致性。這一精細化的訓練流程使得CogView4在生成圖像時能夠更好地滿足用戶的需求。
項目地址:https://github.com/THUDM/CogView4