Downcodes-Editorberichte: Das InstantX-Team hat zusammen mit Forschungsteams der Nanjing University of Science and Technology, der Beihang University und der Peking University gemeinsam ein neues Stilübertragungsmodell namens CSGO entwickelt. Ziel dieses Modells ist es, den Engpass der Bilderzeugungstechnologie zu überwinden, insbesondere um deutliche Verbesserungen bei der Integration von Inhalt und Stil zu erreichen. Das CSGO-Modell unterstützt drei Stilübertragungsmodi, die eine Vielzahl von Anwendungsszenarien wie Bilder und Bilder, Bilder und Text sowie Textbearbeitungsbilder abdecken und so seine leistungsstarke Funktionalität und Flexibilität demonstrieren. Schauen wir uns dieses beeindruckende KI-Modell genauer an.
Kürzlich hat das InstantX-Team zusammen mit Forschungsteams der Nanjing University of Science and Technology, der Beihang University und der Peking University gemeinsam ein neues Stilübertragungsmodell namens CSGO entwickelt, das darauf abzielt, die Bilderzeugungstechnologie zu verbessern, insbesondere in der Kombination von Inhalt und Stil.

CSGO unterstützt hauptsächlich drei Modi der Stilmigration:
1. Inhaltsbilder + Stilreferenzbilder, um die Stilbilder des Inhalts zu synthetisieren. Wenn Sie beispielsweise im folgenden Fall das Originalbild angeben, dessen Stil geändert werden muss, z. B. „Bär, Haus“, und dann das Stilreferenzbild angeben, können Sie den Stil des Originalbilds in eine Referenz ändern Stilbild.

2. Stilreferenzbilder + Textaufforderungen, um Stilbilder mit Textinhalten zu synthetisieren. Wenn beispielsweise im folgenden Fall ein Referenzstilbild und eine Textaufforderung angegeben werden, z. B. „eine Katze, ein Hund, ein Mann, ein Panda“, kann das entsprechende Inhaltsstilbild generiert werden.

3) Bearbeiten Sie das angegebene Objekt im Bild durch Text.

Der Kern des CSGO-Modells liegt in seinem einzigartigen Datenkonstruktionsprozess. Das Forschungsteam hat sorgfältig eine Datengenerierungs- und automatische Reinigungspipeline entwickelt, um einen groß angelegten Stilübertragungsdatensatz namens IMAGStyle zu erstellen. Dieser Datensatz enthält 210.000 Bildtripel und ist zu einer wichtigen Ressource für die akademische Forschung und Erforschung der Bilderzeugungstechnologie geworden.
Das Designkonzept dieses Modells ist sehr neuartig und kann bei der Bildgenerierung klar zwischen Inhalts- und Stilmerkmalen unterscheiden. Der Vorteil dieses Modells liegt laut den Forschern in der durchgängigen Trainingsmethode, die bedeutet, dass während der Inferenzphase keine Feinabstimmung erforderlich ist.
Gleichzeitig besteht ein weiteres Highlight des CSGO-Modells darin, dass es die Generierungsfähigkeit des ursprünglichen Text-zu-Bild-Modells beibehält, ohne UNet zu trainieren. Durch diese Innovationen erreicht CSGO eine bildgesteuerte Stilübertragung, eine textgesteuerte Stilsynthese und eine textbearbeitungsgesteuerte Stilsynthese.
In Bezug auf die experimentellen Ergebnisse schnitt CSGO sehr gut ab. Die Forscher lieferten eine Reihe quantitativer und visueller Vergleichsdaten, führten einen umfassenden Vergleich mit den neuesten vorhandenen Methoden durch und demonstrierten die Vorteile von CSGO bei den Stilkontrollfunktionen.
Highlight:
Das CSGO-Modell hat mithilfe einer innovativen Datenkonstruktionspipeline erfolgreich den IMAGStyle-Datensatz mit 210.000 Bildtripeln generiert.
Das Modell erreicht eine klare Trennung von Inhalt und Stil und unterstützt mehrere Generierungsmethoden, einschließlich bildgesteuerter und textgesteuerter Stilübertragung.
? Experimentelle Ergebnisse zeigen, dass CSGO bestehende Technologien hinsichtlich der Stilkontrollfunktionen übertrifft und ein neues Niveau der Bildgenerierung demonstriert.
Das Aufkommen des CSGO-Modells markiert einen neuen Durchbruch in der Bilderzeugungstechnologie. Seine herausragende Leistung bei der Stilübertragung und innovativen Datenkonstruktionsmethoden bieten neue Richtungen und Inspirationen für die zukünftige Bildgenerierungsforschung. Der Herausgeber von Downcodes hofft, dass das CSGO-Modell in mehr Bereichen angewendet wird und uns ein aufregenderes visuelles Erlebnis beschert!