Bytedance hat zusammen mit Forschungsteams der University of China und Singapur ein neues KI -Bildbearbeitungssystem namens Photodoodle gestartet, das unsere Wahrnehmung der Bildschöpfung neu definiert. PhotoDoodle, basierend auf dem Fluss.1 -Modell, kann künstlerische Stil aus einer kleinen Anzahl von Proben lernen und spezifische Bearbeitungsanweisungen genau ausführen, um neue Möglichkeiten für den kreativen Ausdruck zu eröffnen.
Die Kerntechnologie von Photodoodle ist das vom Forschungsteam entwickelte Omnietitor-System, das die LORA-Technologie (Low-Rank-Adaptive) geschickt nutzt, um den Fluss zu verbessern.1 Bildgenerierungsmodell der deutschen Startup-Schwarzwaldlabors. Dieser Ansatz erfordert keine vollständige Änderung der Gewichte des ursprünglichen Modells, sondern ermöglicht stattdessen die Möglichkeit, sich von winzigen Konzepten auf den vollständigen Stil der vollständigen Stil anzupassen, indem eine dedizierte kleine Matrix hinzugefügt wird.
Die Forscher verwendeten dann eine Variante namens Editora, um Omnieditor zu trainieren, um einen einzigartigen künstlerischen Stil zu replizieren. Durch ausgewählte Bilderpaare, die in Zusammenarbeit mit Künstlern erstellt wurden, kann das System die Feinheiten jedes künstlerischen Stils erfassen.

Photodoodle's auffälligste Innovation ist die "Positionscodierungsklonierung" -Technologie. Diese Technologie ermöglicht es KI, den genauen Ort jedes Pixels im Originalbild zu erinnern, wodurch die Integrität der Bildkomposition beibehalten wird, wenn neue Elemente hinzugefügt werden und sichergestellt werden, dass neu hinzugefügte Elemente natürlich in den Hintergrund einfügen.
Dies löst die wichtigsten Schmerzpunkte der traditionellen KI für Bildbearbeitung: entweder den gesamten Bildstil oder die Bearbeitung von nur lokalen Bereichen, wodurch es schwierig ist, neue dekorative Elemente zu integrieren und gleichzeitig die ursprüngliche Perspektive und den ursprünglichen Hintergrund beizubehalten. Photodoodle kann diesen Durchbruch ohne zusätzliches Parametertraining erreichen und die Verarbeitungseffizienz erheblich verbessern.

Bei tatsächlichen Tests befasst sich Photodoodle leicht mit komplexen Anweisungen von "weißer Katze weißer" zum "Hinzufügen eines rosa Monsters, der ein Gebäude hinaufsteigt". Im Vergleich zur früheren Kunst tritt sie hervorragend in Benchmarks wie der Ähnlichkeit der Bildtextbeschreibung auf und überschreitet seine Kollegen weit, unabhängig davon, ob ein gezielte Bearbeitung oder globale Bild ändert.

Derzeit benötigt Photodoodle Dutzende von Bildernpaaren und Tausende von Trainingsschritten, um den neuen Stil zu beherrschen. Das Forschungsteam hat seine Aufmerksamkeit auf effizientere Einzelbild-Trainingsmethoden zugewiesen und einen Datensatz mit sechs verschiedenen Kunststilen und mehr als 300 Bildernpaaren veröffentlicht. Der relevante Code wurde auch auf Github offen gesammelt und bietet eine solide Grundlage für zukünftige Forschung.
Adresse: https://github.com/showlab/photodoodle