Downcodes の編集者は、Zhipu AI が最新のビンセント グラフ モデル CogView3 とそのアップグレード バージョン CogView-3Plus-3B をオープンソース化し、ビンセント グラフの分野で波紋を起こしていることを知りました。リレー拡散を使用する最初のモデルである CogView3 は、独自のカスケード拡散方式により画質と効率の面で画期的な進歩を遂げました。その生成品質は SDXL を上回っていますが、同等のパフォーマンスでも推論速度は高速です。これは間違いなく、高品質で効率的な画像生成の新たな可能性をもたらします。
最近、Zhipu AI は最新の傑作である CogView3 とそのアップグレード版 CogView-3Plus-3B をオープンソース化し、Vincentian グラフィックスの分野に新たな活力を注入しました。
CogView3 のデビューは間違いなく重要なマイルストーンです。テキストから画像への生成分野でリレー拡散を実装した最初のモデルとして、独自のカスケード拡散方式を採用しています。この革新的なアプローチでは、最初に低解像度の画像を生成し、次にリレーベースの超解像度テクノロジーを通じて最終出力を完成させます。これにより、生成される画像の品質が大幅に向上するだけでなく、トレーニングと推論のコストも大幅に削減されます。

最も目を引くのはCogView3のパフォーマンスだ。人間による評価結果によると、CogView3 は生成品質の点で現在の最先端のオープンソースのテキストから画像へのモデル SDXL を上回り、勝率は 77.0% です。さらに驚くべきことは、この偉業を SDXL のわずか約半分の推論時間で達成していることです。 CogView3 の合理化されたバージョンを使用すると、SDXL の推論時間のわずか 10 分の 1 しか必要とせず、同等のパフォーマンス レベルを維持できます。この画期的な進歩により、効率的で高品質な画像生成の新たな可能性が開かれることは間違いありません。
同時に、Zhipu AI は、DiT (Diffusion Transformers) フレームワークに基づく画像モデルである CogView-3Plus-3B も開始しました。具体的な試験結果はまだ発表されていないが、業界ではその可能性に期待が集まっている。 CogView-3Plus-3B は、CogView3 に基づいてさらに最適化されており、Zero-SNR 拡散ノイズ スケジューリングやテキストと画像の結合アテンション メカニズムなどの高度なテクノロジーが導入されています。これらの改善により、トレーニングと推論のコストが削減されるだけでなく、強力な画像生成機能も維持されます。
CogView-3Plus-3B は、512x512 から 2048x2048 までの幅広い画像解像度をサポートしているため、アプリケーション シナリオの柔軟性が大幅に向上していることは注目に値します。日常使用でもプロの創作でも、適切な解像度のオプションが見つかります。
ユーザーがこれらのモデルをより有効に活用できるように、Zhipu AI は実用的な提案とツールも提供します。彼らは、生成される画像の品質を大幅に向上させることができるラージ言語モデル (LLM) を通じてプロンプトワードを最適化することをユーザーに推奨しています。同時に、Zhipu AI はサンプル スクリプトも提供しており、ユーザーの使用敷居を大幅に下げます。
プロジェクトアドレス: https://github.com/THUDM/CogView3
CogView3 と CogView-3Plus-3B のオープン ソースは、Wenshengtu テクノロジーのさらなる大きな前進を示しており、Downcodes の編集者は、将来のアプリケーションでさらなる驚きをもたらすことを楽しみにしています。 開発者の方には積極的に挑戦していただき、開発に貢献していただければ幸いです。