Bytedance พร้อมกับทีมวิจัยจากมหาวิทยาลัยจีนและสิงคโปร์ได้เปิดตัวระบบแก้ไขภาพ AI ใหม่ที่เรียกว่า PhotoDoodle ซึ่งเป็นการนิยามการรับรู้ของเราเกี่ยวกับการสร้างภาพ PhotoDoodle ซึ่งขึ้นอยู่กับโมเดล Flux.1 สามารถเรียนรู้สไตล์ศิลปะจากตัวอย่างจำนวนน้อยและดำเนินการตามคำแนะนำการแก้ไขที่เฉพาะเจาะจงอย่างถูกต้องเปิดโอกาสใหม่สำหรับการแสดงออกที่สร้างสรรค์
เทคโนโลยีหลักของ PhotoDoodle คือระบบ Omnieditor ที่พัฒนาโดยทีมวิจัยซึ่งใช้เทคโนโลยี LORA (ปรับตัวต่ำ) อย่างชาญฉลาดเพื่อปรับปรุงรูปแบบการสร้างภาพ 1 ของการเริ่มต้นของ German Startup Black Forest Labs วิธีการนี้ไม่จำเป็นต้องมีการเปลี่ยนแปลงน้ำหนักของโมเดลดั้งเดิมอย่างสมบูรณ์ แต่จะช่วยให้สามารถปรับจากแนวคิดเล็ก ๆ ไปสู่การแปลงแบบเต็มรูปแบบโดยการเพิ่มเมทริกซ์ขนาดเล็กโดยเฉพาะ
จากนั้นนักวิจัยก็ใช้ตัวแปรที่เรียกว่า Editlora เพื่อฝึกฝน Omnieditor เพื่อทำซ้ำสไตล์ศิลปะที่เป็นเอกลักษณ์ ผ่านภาพคู่ที่เลือกซึ่งสร้างขึ้นโดยความร่วมมือกับศิลปินระบบสามารถเข้าใจรายละเอียดปลีกย่อยของแต่ละสไตล์ศิลปะได้

นวัตกรรมที่สะดุดตาที่สุดของ PhotoDoodle คือเทคโนโลยี "การเข้ารหัสตำแหน่ง" เทคโนโลยีนี้ช่วยให้ AI สามารถจดจำตำแหน่งที่แน่นอนของแต่ละพิกเซลในภาพต้นฉบับได้ดังนั้นจึงรักษาความสมบูรณ์ขององค์ประกอบภาพเมื่อเพิ่มองค์ประกอบใหม่และทำให้มั่นใจได้ว่าองค์ประกอบที่เพิ่มเข้ามาใหม่จะผสมผสานเข้ากับพื้นหลังอย่างเป็นธรรมชาติ
สิ่งนี้จะแก้ปัญหาความเจ็บปวดที่สำคัญของการแก้ไข AI ภาพดั้งเดิม: การเปลี่ยนรูปแบบภาพทั้งหมดหรือแก้ไขเฉพาะพื้นที่ท้องถิ่นทำให้ยากที่จะรวมองค์ประกอบการตกแต่งใหม่ในขณะที่ยังคงมุมมองและพื้นหลังดั้งเดิม Photodoodle สามารถบรรลุเป้าหมายนี้ได้โดยไม่ต้องฝึกพารามิเตอร์เพิ่มเติมซึ่งเป็นการปรับปรุงประสิทธิภาพการประมวลผลอย่างมาก

ในการทดสอบจริง PhotoDoodle จัดการกับคำแนะนำที่ซับซ้อนจาก "Making the Cat Whiter" เพื่อ "เพิ่มมอนสเตอร์สีชมพูปีนขึ้นไปบนอาคาร" เมื่อเทียบกับศิลปะก่อนหน้านี้มันมีประสิทธิภาพอย่างยอดเยี่ยมในการเปรียบเทียบเช่นคำอธิบายข้อความภาพความคล้ายคลึงกันเกินกว่าเพื่อนร่วมงานไม่ว่าจะเป็นการแก้ไขเป้าหมายหรือการเปลี่ยนแปลงภาพทั่วโลก

ปัจจุบัน PhotoDoodle ต้องการภาพหลายสิบคู่และขั้นตอนการฝึกอบรมหลายพันขั้นเพื่อฝึกฝนสไตล์ใหม่ ทีมวิจัยได้หันมาให้ความสนใจกับวิธีการฝึกอบรมภาพเดียวที่มีประสิทธิภาพมากขึ้นและปล่อยชุดข้อมูลที่มีรูปแบบศิลปะที่แตกต่างกันหกรูปแบบและภาพมากกว่า 300 คู่ รหัสที่เกี่ยวข้องยังได้รับการเปิดแหล่งที่มาของ GitHub ซึ่งเป็นรากฐานที่มั่นคงสำหรับการวิจัยในอนาคต
ที่อยู่: https://github.com/showlab/photodoodle