Bytedance, вместе с исследовательскими группами из Китайского университета и Сингапура, запустила новую систему редактирования изображений ИИ под названием PhotoDoodle, которая переосмысливает наше восприятие создания изображений. PhotoDoodle, основанная на модели Flux.1, способна изучать художественный стиль из небольшого количества образцов и точно выполнять конкретные инструкции по редактированию, открывая новые возможности для творческого выражения.
Основная технология PhotoDoodle-это система Omnieditor, разработанная исследовательской группой, которая умно использует технологию LORA (низкодовольная адаптивная) для улучшения потока. 1 Модель генерации изображений немецких стартаповых лабораторий. Этот подход не требует полного изменения весов исходной модели, но вместо этого позволяет способствовать корректировке от крошечных концепций в полное преобразование стиля, добавив выделенную небольшую матрицу.
Затем исследователи использовали вариант под названием Editlora для обучения Omnieditor для воспроизведения уникального художественного стиля. Благодаря выбранным парам изображений, созданных в сотрудничестве с художниками, система может понять тонкости каждого художественного стиля.

Самая привлекательная инновация PhotoDoodle-это технология «клонирование кодирования». Эта технология позволяет ИИ запомнить точное местоположение каждого пикселя на исходном изображении, тем самым сохраняя целостность композиции изображения при добавлении новых элементов и обеспечении того, что вновь добавленные элементы естественным образом смешиваются в фоновой режиме.
Это решает ключевые болевые точки традиционного редактирования изображений AI: либо изменение всего стиля изображения, либо редактирование только местных областей, что затрудняет включение новых декоративных элементов при сохранении исходной перспективы и фона. PhotoDoodle может достичь этого прорыва без дополнительного обучения параметров, значительно повышая эффективность обработки.

В фактическом тестировании PhotoDoodle легко справляется со сложными инструкциями «сделать кошку белее» до «добавления розового монстра, поднимающегося по зданию». По сравнению с предыдущим искусством, он превосходно работает в критериях, таких как сходство описания изображения и текста, намного превышая своих сверстников, будь то целевое редактирование или глобальные изменения изображения.

В настоящее время PhotoDoodle требует десятков пар изображений и тысяч учебных шагов, чтобы освоить новый стиль. Исследовательская группа обратила свое внимание на более эффективные методы обучения с одним изображением и выпустила набор данных, содержащий шесть различных стилей искусства и более 300 пар изображений. Соответствующий код также был открыт на GitHub, обеспечивая прочную основу для будущих исследований.
Адрес: https://github.com/showlab/photodoodle