Bytedance는 중국 대학교와 싱가포르의 연구팀과 함께 Photodoodle이라는 새로운 AI 이미지 편집 시스템을 시작하여 이미지 생성에 대한 인식을 재정의하고 있습니다. Flux.1 모델을 기반으로 한 Photodoodle은 소수의 샘플에서 예술적 스타일을 배우고 특정 편집 지침을 정확하게 실행하여 창의적인 표현을위한 새로운 가능성을 열 수 있습니다.
Photodoodle의 핵심 기술은 연구팀이 개발 한 Omnieditor 시스템으로 LORA (저 순위 적응 형) 기술을 영리하게 활용하여 플럭스를 향상시킵니다. 이 접근법은 원래 모델의 가중치를 완전히 변경할 필요가 없지만 대신 전용 작은 매트릭스를 추가하여 작은 개념에서 풀 스타일 변환으로 조정할 수 있습니다.
그런 다음 연구원들은 Editlora라는 변형을 사용하여 Omnieditor를 훈련하여 독특한 예술적 스타일을 복제했습니다. 아티스트와 공동으로 생성 된 선택된 이미지 쌍을 통해이 시스템은 각 예술적 스타일의 미묘함을 파악할 수 있습니다.

Photodoodle의 가장 눈길을 끄는 혁신은 "포지션 코딩 클로닝"기술입니다. 이 기술을 통해 AI는 원본 이미지에서 각 픽셀의 정확한 위치를 기억할 수 있으므로 새 요소를 추가하고 새로 추가 된 요소가 자연스럽게 추가 된 요소를 배경으로 혼합 할 때 그림 구성의 무결성을 유지할 수 있습니다.
이것은 전통적인 이미지 편집 AI의 주요 고통 지점을 해결합니다. 전체 이미지 스타일을 변경하거나 로컬 영역 만 편집하여 원래의 관점과 배경을 유지하면서 새로운 장식 요소를 통합하기가 어렵습니다. Photodoodle은 추가 매개 변수 교육없이 이러한 혁신을 달성하여 처리 효율성을 크게 향상시킬 수 있습니다.

실제 테스트에서 Photodoodle은 "고양이 흰색 만들기"에서 "건물을 올라가는 분홍색 괴물을 추가하는 것"에 이르기까지 복잡한 지시를 쉽게 처리합니다. 이전 예술과 비교할 때 이미지 텍스트 설명 유사성과 같은 벤치 마크에서 우수하게 수행되며, 대상 편집 또는 글로벌 이미지 변경 여부에 관계없이 동료를 훨씬 초과합니다.

현재 Photodoodle은 새로운 스타일을 마스터하기 위해 수십 쌍의 이미지와 수천 개의 교육 단계가 필요합니다. 연구팀은보다 효율적인 단일 이미지 교육 방법에 관심을 돌리고 6 가지 아트 스타일과 300 쌍 이상의 이미지가 포함 된 데이터 세트를 발표했습니다. 관련 코드는 Github에서 공개되어 향후 연구를위한 탄탄한 토대를 제공했습니다.
주소 : https://github.com/showlab/photodoodle