أطلقت Bytedance ، إلى جانب فرق البحث من جامعة الصين وسنغافورة ، نظامًا جديدًا لتحرير صور الذكاء الاصطناعي يسمى PhotoDoodle ، والذي يعيد تعريف تصورنا لإنشاء الصور. PhotoDoodle ، استنادًا إلى نموذج Flux.1 ، قادر على تعلم النمط الفني من عدد صغير من العينات وتنفيذ تعليمات تحرير محددة بدقة ، مما يؤدي إلى إمكانيات جديدة للتعبير الإبداعي.
التكنولوجيا الأساسية لـ Photodoodle هي نظام Omnieditor الذي طوره فريق البحث ، والذي يستخدم بذكاء تقنية Lora (التكيفية منخفضة الرتبة) لتحسين نموذج توليد الصور من شركة Black Forest Labs الألمانية. لا يتطلب هذا النهج تغييرًا كاملاً في أوزان النموذج الأصلي ، ولكنه بدلاً من ذلك يتيح القدرة على التكيف من المفاهيم الصغيرة إلى تحويل النمط الكامل عن طريق إضافة مصفوفة صغيرة مخصصة.
ثم استخدم الباحثون متغيرًا يسمى Editlora لتدريب Omnieditor لتكرار أسلوب فني فريد. من خلال أزواج محددة من الصور التي تم إنشاؤها بالتعاون مع الفنانين ، يمكن للنظام فهم التفاصيل الدقيقة لكل نمط فني.

إن أكثر ابتكار Photodoodle لافتة للنظر هو تقنية "استنساخ الترميز الموضعية". تمكن هذه التكنولوجيا منظمة العفو الدولية من تذكر الموقع الدقيق لكل بكسل في الصورة الأصلية ، وبالتالي الحفاظ على تكامل تكوين الصورة عند إضافة عناصر جديدة وضمان أن العناصر المضافة حديثًا تمتزج بشكل طبيعي في الخلفية.
هذا يحل نقاط الألم الرئيسية لتحرير الصور التقليدي: إما تغيير نمط الصورة بأكمله أو تحرير المناطق المحلية فقط ، مما يجعل من الصعب دمج عناصر زخرفية جديدة مع الحفاظ على المنظور الأصلي والخلفية. يمكن أن يحقق PhotoDoodle هذا الاختراق دون تدريب إضافي للمعلمات ، مما يؤدي إلى تحسين كفاءة المعالجة بشكل كبير.

في الاختبار الفعلي ، يتعامل PhotoDoodle بسهولة مع تعليمات معقدة من "جعل القطة أكثر بياضًا" إلى "إضافة وحش وردي يتسلق المبنى". بالمقارنة مع الفن السابق ، فإنه يؤدي بشكل ممتاز في المعايير مثل تشابه وصف نص الصورة ، مما يتجاوز أقرانه بكثير سواء كان التحرير المستهدف أو تغييرات الصور العالمية.

حاليًا ، يتطلب PhotoDoodle العشرات من أزواج الصور وآلاف خطوات التدريب لإتقان الأسلوب الجديد. لقد حول فريق البحث انتباهه إلى أساليب تدريب أكثر كفاءة في الصور الواحدة وأصدر مجموعة بيانات تحتوي على ستة أنماط فنية مختلفة وأكثر من 300 زوج من الصور. تم فتح الرمز ذي الصلة أيضًا على GitHub ، مما يوفر أساسًا متينًا للبحث في المستقبل.
العنوان: https://github.com/showlab/photodoodle