ダウンコード編集者のレポート: InstantX チームは、南京科技大学、北杭大学、北京大学の研究チームと共同で、CSGO と呼ばれる新しいスタイルの転送モデルを開発しました。このモデルは、画像生成テクノロジーのボトルネックを打破すること、特にコンテンツとスタイルの統合において大幅な改善を達成することを目的としています。 CSGO モデルは 3 つのスタイルの転送モードをサポートし、写真と写真、写真とテキスト、写真のテキスト編集などのさまざまなアプリケーション シナリオをカバーし、その強力な機能と柔軟性を実証します。この印象的な AI モデルを詳しく見てみましょう。
最近、InstantX チームは、南京科技大学、北杭大学、北京大学の研究チームと共同で、特にコンテンツとスタイルの組み合わせにおける画像生成技術の向上を目的として、CSGO と呼ばれる新しいスタイル転送モデルを開発しました。

CSGO は主に、次の 3 つのスタイル移行モードをサポートしています。
1. コンテンツピクチャ + スタイル参照ピクチャを使用して、コンテンツのスタイルピクチャを合成します。例えば以下の場合、「クマ、家」などスタイルを変更したい元画像を与え、その後スタイルの参照画像を与えると、元画像のスタイルを参照に変更できます。スタイルの写真。

2. スタイル参照画像とテキスト コンテンツを合成するためのスタイル参照画像 + テキスト プロンプト。例えば、以下の場合、基準スタイル画像が与えられ、「猫、犬、男、パンダ」などのテキストプロンプトが与えられると、対応するコンテンツスタイル画像を生成することができる。

3) 画像内の指定したオブジェクトをテキストで編集します。

CSGO モデルの中核は、その独自のデータ構築プロセスにあります。研究チームは、IMAGStyle と呼ばれる大規模なスタイル転送データ セットを構築するためのデータ生成および自動クリーニング パイプラインを慎重に設計しました。このデータセットには 210,000 個の画像トリプルが含まれており、学術研究や画像生成技術の探求にとって重要なリソースとなっています。
このモデルの設計コンセプトは非常に斬新で、画像生成プロセス中にコンテンツとスタイルの特徴を明確に区別できます。研究者らによると、このモデルの利点はエンドツーエンドのトレーニング方法であり、推論段階で微調整が必要ないことだという。
同時に、CSGO モデルのもう 1 つのハイライトは、UNet をトレーニングせずに元のテキストから画像へのモデルの生成機能を保持していることです。これらの革新により、CSGO は画像駆動型のスタイル転送、テキスト駆動型のスタイル合成、およびテキスト編集駆動型のスタイル合成を実現します。
実験結果に関しては、CSGO は非常に優れたパフォーマンスを示し、研究者らは一連の定量的および視覚的な比較データを提供し、最新の既存手法との包括的な比較を実施し、スタイル制御機能における CSGO の利点を実証しました。
ハイライト:
CSGO モデルは、革新的なデータ構築パイプラインを通じて、210,000 個のイメージ トリプルを含む IMAGStyle データ セットの生成に成功しました。
このモデルは、コンテンツとスタイルの明確な分離を実現し、画像駆動型およびテキスト駆動型のスタイル転送を含む複数の生成方法をサポートします。
? 実験結果は、CSGO がスタイル制御機能の点で既存のテクノロジーを上回っており、新しいレベルの画像生成を実証していることを示しています。
CSGO モデルの登場は、画像生成テクノロジーにおける新たな進歩を示しています。スタイル転送における優れたパフォーマンスと革新的なデータ構築方法は、将来の画像生成研究に新たな方向性とインスピレーションを与えます。 Downcodes の編集者は、CSGO モデルがより多くの分野に適用され、よりエキサイティングな視覚体験をもたらしてくれることを期待しています。