画像生成の分野では、多層画像生成テクノロジーが革命をリードしており、ユーザーが生成モデルと対話する方法を完全に変えました。このテクノロジーにより、ユーザーは特定の画像レイヤーを分離、選択、編集できるため、前例のない創造的な自由を提供できます。最近、Microsoftの研究チームは、「匿名地域の変圧器」(ART)と呼ばれる革新的なテクノロジーを立ち上げました。これは、グローバルなテキストキューと匿名の地域レイアウトに基づいて、可変多層透明な画像を直接生成できます。

Artのデザインは、「スキーマ理論」に触発されています。これにより、生成モデルは、匿名の地域レイアウトを採用することにより、どの視覚情報がどのテキスト情報とどのテキスト情報が一致するかを独立して決定できます。このアプローチは、従来のセマンティックレイアウトとは対照的です。従来のセマンティックレイアウトには通常、明確な対応が必要ですが、Artの匿名エリアレイアウトにより柔軟性が高まり、生成プロセスがよりインテリジェントで効率的になります。
ARTは、各匿名領域に関連する視覚情報のみを選択するだけで、注意のコストを大幅に削減する視覚情報のみを選択するレイヤーごとのエリアベースの作物メカニズムを導入することに言及する価値があります。この方法は、生成速度を高速化するだけでなく、完全な注意方法よりも12倍以上速くするだけでなく、レイヤー間の競合を効果的に減らし、50を超える異なるレベルで画像生成を処理できます。この効率的な処理機能は、複雑な画像生成タスクを強力にサポートします。
さらに、ARTは、共同エンコードとデコードされた可変多層画像の透明性をサポートする高品質のマルチレイヤー透明画像自動エンコーダーも提案しました。この革新的な設計は、正確な制御とスケーラブルな層の生成のための新しい可能性を提供し、インタラクティブなコンテンツ作成の開発をさらに促進します。このテクノロジーを通じて、ユーザーはあらゆるレベルの画像をより柔軟に制御し、より洗練された編集と作成を実現できます。
プロジェクト:https://art-msra.github.io/
キーポイント:
ARTは、グローバルなテキストプロンプトと匿名の地域レイアウトに基づいて、多層透明な画像を直接生成できます。
層ごとの領域の作物作物メカニズムが採用され、画像生成の効率が大幅に向上します。これは、従来の方法よりも12倍速いです。
新しい高品質の自動エンコーダーは、多層透明な画像の正確な制御と生成をサポートし、インタラクティブなコンテンツ作成を促進します。