Zhipu AIによって開始された最新のオープンソース文化モデルCogView4は公式にリリースされ、画像生成の分野で人工知能の別の大きなブレークスルーをマークしています。 CogView4は、最大6億個のパラメータースケールを持っているだけでなく、初めて中国の入力と中国のテキストへの完全なサポートを実現しています。 「写真で漢字を生成できる最初のオープンソースモデル」として知られています。このイノベーションは、中国のコンテンツクリエイターに強力なツールを提供し、中国の文脈における画像生成テクノロジーの開発を大幅に促進します。
CogView4のコアハイライトは、特に複雑な中国の指示を処理する際に、中国と英語の迅速な単語入力をサポートすることです。画像で漢字を生成できる最初のオープンソースの伝記モデルとして、Cogview4はオープンソースフィールドの大きなギャップを埋めます。さらに、このモデルは、あらゆるアスペクト比の写真の生成もサポートし、任意の長さの迅速な単語入力を処理することができ、非常に高い柔軟性と適応性を示し、さまざまなシナリオのニーズを満たします。
技術的なアーキテクチャに関しては、CogView4は完全にアップグレードされており、そのテキストエンコーダーはGLM-4にアップグレードされ、中国と英語のバイリンガル入力をサポートし、英語のみをサポートするオープンソースモデルの以前の制限を完全に破りました。中国語と英語のバイリンガルのグラフィックペアを使用して訓練することにより、中国の文脈でのCogView4の生成品質が大幅に改善され、中国のテキストを処理する際の精度と流ency性が確保されます。
テキスト処理の観点から、CogView4は従来の固定長デザインを廃止し、動的なテキスト長スキームを採用しています。平均的な説明テキストが、固定された512ワード要素を持つ従来のソリューションと比較して200〜300ワード要素の場合、冗長性は約50%減少し、トレーニング効率は5%〜30%向上します。このイノベーションは、コンピューティングリソースの使用を最適化するだけでなく、モデルがさまざまな長さの単語をより効率的に処理することを可能にし、生成された画像の品質と多様性をさらに向上させます。
CogView4は、いくつかの技術的ブレークスルーのおかげで、あらゆる解像度の画像の生成をサポートしています。このモデルは、2次元の回転位置コーディングと補間位置表現と組み合わせた混合解像度でトレーニングされており、さまざまなサイズのニーズに適応できます。さらに、フローマッチング拡散モデルとパラメーター化された線形動的ノイズ計画に基づいて、CogView4は生成された画像の品質と多様性をさらに向上させ、複雑なシナリオでパフォーマンスを向上させます。
COGVIEW4のトレーニングプロセスは、基本的な解像度トレーニングから一般的な解像度の適応、高品質のデータ微調整まで、複数の段階に分割され、最終的に人間の好みの調整を通じて最適化されました。このプロセスは、Share-Param DITアーキテクチャを保持し、複数のタスクでのモデルの安定性と一貫性を確保するために、さまざまなモードに独立した適応層の正規化を導入します。この洗練されたトレーニングプロセスにより、CogView4は画像を生成するときにユーザーのニーズをよりよく満たすことができます。
プロジェクトアドレス:https://github.com/thudm/cogview4