Bytedance, junto con equipos de investigación de la Universidad de China y Singapur, ha lanzado un nuevo sistema de edición de imágenes de IA llamado Photodoodle, que está redefiniendo nuestra percepción de la creación de imágenes. Photodoodle, basado en el modelo Flux.1, puede aprender estilo artístico de una pequeña cantidad de muestras y ejecutar instrucciones de edición específicas con precisión, abriendo nuevas posibilidades para la expresión creativa.
La tecnología central de Photodoodle es el sistema Omnieditor desarrollado por el equipo de investigación, que utiliza inteligentemente la tecnología Lora (adaptativa de bajo rango) para mejorar el flujo.1 Modelo de generación de imágenes de los laboratorios de bosques negros alemanes. Este enfoque no requiere un cambio completo de los pesos del modelo original, sino que permite la capacidad de ajustar desde pequeños conceptos a una conversión de estilo completo agregando una matriz pequeña dedicada.
Luego, los investigadores utilizaron una variante llamada Editora para entrenar a Omnieditor para replicar un estilo artístico único. A través de pares seleccionadas de imágenes creadas en colaboración con artistas, el sistema puede comprender las sutilezas de cada estilo artístico.

La innovación más llamativa de Photodoodle es la tecnología de "colección de clonación" de posición. Esta tecnología permite a la IA recordar la ubicación exacta de cada píxel en la imagen original, manteniendo así la integridad de la composición de la imagen al agregar nuevos elementos y garantizar que los elementos recientemente agregados se mezclen naturalmente con el fondo.
Esto resuelve los puntos de dolor clave de la IA de edición de imágenes tradicional: ya sea cambiar todo el estilo de imagen o editar solo áreas locales, lo que dificulta incorporar nuevos elementos decorativos mientras mantiene la perspectiva y el fondo originales. Photodoodle puede lograr este avance sin capacitación adicional en parámetros, mejorando en gran medida la eficiencia del procesamiento.

En las pruebas reales, Photodoodle trata fácilmente con instrucciones complejas desde "hacer el gato más blanco" hasta "agregar un monstruo rosa trepando por un edificio". En comparación con la técnica anterior, se realiza excelentemente en puntos de referencia, como la similitud de descripción de texto de imagen, excediendo con creces a sus pares, ya sea la edición dirigida o los cambios de imagen global.

Actualmente, Photodoodle requiere docenas de pares de imágenes y miles de pasos de entrenamiento para dominar el nuevo estilo. El equipo de investigación ha centrado su atención en métodos de entrenamiento de imágenes únicas más eficientes y ha lanzado un conjunto de datos que contiene seis estilos de arte diferentes y más de 300 pares de imágenes. El código relevante también se ha abierto en GitHub, proporcionando una base sólida para futuras investigaciones.
Dirección: https://github.com/showlab/photodoodle