字節跳動與中國和新加坡大學的研究團隊聯合推出了一款名為PhotoDoodle的新型AI圖像編輯系統,這款系統正在重新定義我們對圖像創作的認知。基於Flux.1模型的PhotoDoodle,能夠從少量樣本中學習藝術風格,並精確執行特定的編輯指令,為創意表達開闢了全新的可能性。
PhotoDoodle的核心技術是研究團隊開發的OmniEditor系統,該系統巧妙地利用了LoRA(低秩自適應)技術,對德國初創公司Black Forest Labs的Flux.1圖像生成模型進行了改良。這種方法不需要徹底改變原始模型的權重,而是通過添加專用的小型矩陣,實現了從微小概念調整到完整風格轉換的能力。
研究人員隨後採用了一種名為EditLoRA的變體來訓練OmniEditor,使其能夠複製獨特的藝術風格。通過與藝術家合作創建的精選圖像對,系統得以掌握每種藝術風格的精妙之處。

PhotoDoodle最引人注目的創新是“位置編碼克隆”技術。這項技術使AI能夠記住原始圖像中每個像素的確切位置,從而在添加新元素時保持畫面構圖的完整性,並確保新添加的元素自然融入背景。
這解決了傳統圖像編輯AI的關鍵痛點:要么改變整個圖像風格,要么只能編輯局部區域,難以在保持原有視角和背景的同時融入新的裝飾元素。而PhotoDoodle無需額外參數訓練就能實現這一突破,大大提高了處理效率。

在實際測試中,PhotoDoodle輕鬆應對從“讓貓變白一點”到“添加一隻爬上建築物的粉紅色怪物”等各種複雜指令。與現有技術相比,它在圖像與文本描述相似度等基準測試中表現卓越,無論是針對性編輯還是全局圖像更改,都遠超同類產品。

目前,PhotoDoodle需要數十對圖像和數千個訓練步驟才能掌握新風格。研究團隊已將目光投向更高效的單圖像訓練方法,並發布了一個包含六種不同藝術風格和300多對圖像的數據集,相關代碼也已在GitHub上開源,為未來研究提供了堅實基礎。
地址:https://github.com/showlab/PhotoDoodle