ByTedance, ainsi que des équipes de recherche de l'Université de Chine et de Singapour, a lancé un nouveau système d'édition d'image d'IA appelé Photodoodle, qui redéfinit notre perception de la création d'images. Photodoodle, basé sur le modèle Flux.1, est capable d'apprendre le style artistique à partir d'un petit nombre d'échantillons et d'exécuter avec précision les instructions d'édition spécifiques, ouvrant de nouvelles possibilités d'expression créative.
La technologie principale de Photodoodle est le système omnivitor développé par l'équipe de recherche, qui utilise intelligemment la technologie LORA (adaptative à faible rang) pour améliorer le modèle de génération d'image.1 des laboratoires de startup allemand Black Forest Labs. Cette approche ne nécessite pas de changement complet des poids du modèle d'origine, mais permet plutôt de s'adapter à des concepts minuscules à une conversion de style complet en ajoutant une petite matrice dédiée.
Les chercheurs ont ensuite utilisé une variante appelée Editlora pour former Omneditor pour reproduire un style artistique unique. Grâce à des paires d'images sélectionnées créées en collaboration avec des artistes, le système est capable de saisir les subtilités de chaque style artistique.

L'innovation la plus accrocheuse de Photodoodle est la technologie de "clonage de codage de position". Cette technologie permet à l'IA de se souvenir de l'emplacement exact de chaque pixel dans l'image d'origine, conservant ainsi l'intégrité de la composition d'image lors de l'ajout de nouveaux éléments et de la garantie que les éléments nouvellement ajoutés se mélangent naturellement dans l'arrière-plan.
Cela résout les principaux points de douleur de l'édition d'images traditionnelles: soit modifier l'ensemble du style d'image, soit l'édition uniquement des zones locales, ce qui rend difficile l'incorporation de nouveaux éléments décoratifs tout en maintenant la perspective et le fond d'origine. Photodoodle peut réaliser cette percée sans formation de paramètres supplémentaires, améliorant considérablement l'efficacité de traitement.

Dans les tests réels, Photodoodle traite facilement des instructions complexes, de "rendre le chat blanc" à "ajouter un monstre rose grimpant dans un bâtiment". Par rapport à l'art antérieur, il se produit parfaitement dans des repères tels que la similitude de description de texte d'image, dépassant de loin ses pairs, qu'ils soient des modifications ciblées ou des changements d'image globaux.

Actuellement, Photodoodle nécessite des dizaines de paires d'images et des milliers d'étapes d'entraînement pour maîtriser le nouveau style. L'équipe de recherche a tourné son attention vers des méthodes de formation à image unique plus efficaces et a publié un ensemble de données contenant six styles d'art différents et plus de 300 paires d'images. Le code pertinent a également été ouvert sur GitHub, fournissant une base solide pour les recherches futures.
Adresse: https://github.com/showlab/photodoodle