bytedanceは、中国大学とシンガポール大学の研究チームとともに、PhotoDoodleと呼ばれる新しいAI画像編集システムを立ち上げました。これは、画像作成の認識を再定義しています。 Flux.1モデルに基づくPhotoDoodleは、少数のサンプルから芸術的なスタイルを学び、特定の編集手順を正確に実行し、創造的な表現の新しい可能性を開きます。
PhotoDoodleのコアテクノロジーは、研究チームによって開発されたOmnieditorシステムです。これは、LORA(低ランク適応)テクノロジーを巧みに利用してフラックスを改善します。1ドイツのスタートアップブラックフォレストラボの画像生成モデル。このアプローチでは、元のモデルの重みを完全に変更する必要はありませんが、専用の小さなマトリックスを追加することにより、小さな概念からフルスタイルの変換に調整する機能を可能にします。
その後、研究者はエディトロラと呼ばれるバリアントを使用して、オムニディターを訓練してユニークな芸術スタイルを再現しました。アーティストと共同で作成された選択された画像のペアを通じて、システムは各芸術スタイルの微妙さを把握することができます。

PhotoDoodleの最も人目を引く革新は、「ポジションコーディングクローニング」テクノロジーです。このテクノロジーにより、AIは元の画像の各ピクセルの正確な位置を覚えているため、新しい要素を追加し、新しく追加された要素が自然に背景に溶け込むことを保証するときに、画像構成の整合性を維持できます。
これにより、従来の画像の編集AIの重要な問題点が解決します。画像スタイル全体を変更するか、ローカルエリアのみを編集し、元の視点と背景を維持しながら新しい装飾要素を組み込むことを困難にします。 PhotoDoodleは、追加のパラメータートレーニングなしでこのブレークスルーを達成でき、処理効率を大幅に改善できます。

実際のテストでは、PhotoDoodleは「猫を白くする」から「ピンクのモンスターが建物に登る」までの複雑な指示を簡単に扱います。以前のアートと比較して、画像テキストの説明などのベンチマークで優れたパフォーマンスを発揮し、ターゲットの編集やグローバルな画像の変更であれ、ピアをはるかに超えています。

現在、PhotoDoodleには、新しいスタイルを習得するために、数十組の画像と数千のトレーニングステップが必要です。研究チームは、より効率的なシングルイメージトレーニング方法に注意を向け、6つの異なるアートスタイルと300ペア以上の画像を含むデータセットをリリースしました。関連するコードもGitHubにオープンになっており、将来の研究のための強固な基盤を提供しています。
アドレス:https://github.com/showlab/photodoodle