2025年3月4日、Beijing Zhipu Huazhang Technology Co.、Ltd。このモデルは、全体的なスコアを備えたDPGベンチベンチマークテストで優れたパフォーマンスを発揮し、現在のオープンソースの文学および伝記モデルの技術的ベンチマークになりました。 CogView4はApache 2.0プロトコルに従うだけでなく、プロトコルをサポートする最初の画像生成モデルでもあり、オープンソースの画像生成テクノロジーの新しいマイルストーンをマークします。
CogView4の中心的な利点は、その強力な複雑なセマンティックアライメントと能力に従う命令です。任意の長さの中国と英語のバイリンガル入力を処理し、任意の解像度の画像を生成できます。この機能により、CogView4は、広告や短いビデオなどのクリエイティブな分野で幅広いアプリケーションの見通しを備えています。技術的には、CogView4はGLM-4ENCODERをバイリンガルスキルで採用しています。中国語と英語のグラフィックトレーニングをバイリンガルにすることで、バイリンガルの迅速な単語を入力する能力を実現し、モデルの実用性と柔軟性をさらに向上させます。

画像生成の観点から、CogView4は迅速な単語入力の長さをサポートし、あらゆる解像度の画像を生成し、創造的な自由とトレーニング効率を大幅に改善できます。このモデルは、2次元の回転位置コーディング(2Dロープ)を使用して画像位置情報をモデル化し、補間された位置コーディングを通じてさまざまな解像度での画像生成をサポートします。さらに、CogView4は、拡散生成モデリングのフローマッチングスキームも採用し、パラメーター化された線形動的ノイズ計画を組み合わせて、異なる解像度で画像の信号対雑音比要件に適応し、生成された画像の高品質を確保します。
建築設計の観点から、Cogview4は、モダリティ間の効率的な適応を実現するために、テキストとイメージのモダリティのための独立した適応型レイヤーームレイヤーをデザインして、シェアパラムDITアーキテクチャとデザインを継続しています。このモデルは、基本的な解像度トレーニング、一般解像度トレーニング、高品質のデータ微調整、人間の好みの調整トレーニングなど、マルチステージトレーニング戦略を採用し、生成された画像が高い美的感覚を持つだけでなく、人間の美的好みにも準拠していることを保証します。
CogView4はまた、従来の固定トークンの長さの制限を破り、より高いトークンの上限を可能にし、トレーニング中のテキストトークンの冗長性を大幅に削減します。トレーニングキャプションの平均長が200〜300トークンの場合、固定512トークンの従来のソリューションと比較して、CogView4はトークン冗長性を約50%減らし、モデルの進行性トレーニング段階で5%-30%の効率改善を達成し、モデルのトレーニング効果をさらに最適化します。
さらに、CogView4はApache 2.0プロトコルをサポートし、将来ControlNetやComfyuiなどの生態学的サポートを徐々に追加します。微調整ツールキットの完全なセットがまもなく発売され、開発者により便利なユーザーエクスペリエンスを提供します。オープンソースの倉庫アドレスはhttps://github.com/thudm/cogview4、モデルウェアハウスアドレスはhttps://huggingface.co/thudm/cogview4-6bおよびhttps://modelscope.cn/models/zhipuai/cogview4-6bです。