Bytedance, bersama dengan tim peneliti dari University of China dan Singapura, telah meluncurkan sistem pengeditan gambar AI baru yang disebut Photodoodle, yang mendefinisikan kembali persepsi kita tentang penciptaan gambar. Photodoodle, berdasarkan model fluks.1, dapat mempelajari gaya artistik dari sejumlah kecil sampel dan menjalankan instruksi pengeditan khusus secara akurat, membuka kemungkinan baru untuk ekspresi kreatif.
Teknologi inti Photodoodle adalah sistem omnieditor yang dikembangkan oleh tim peneliti, yang dengan cerdik menggunakan teknologi LORA (adaptif rendah) untuk meningkatkan fluks.1 Model pembuatan gambar dari startup Jerman Black Forest Labs. Pendekatan ini tidak memerlukan perubahan total bobot dari model asli, tetapi sebaliknya memungkinkan kemampuan untuk menyesuaikan dari konsep kecil menjadi konversi gaya penuh dengan menambahkan matriks kecil khusus.
Para peneliti kemudian menggunakan varian yang disebut Editlora untuk melatih Omnieditor untuk mereplikasi gaya artistik yang unik. Melalui pasangan gambar yang dipilih yang dibuat bekerja sama dengan seniman, sistem ini dapat memahami seluk -beluk dari masing -masing gaya artistik.

Inovasi Photodoodle yang paling menarik adalah teknologi "Posisi Coding Cloning". Teknologi ini memungkinkan AI untuk mengingat lokasi yang tepat dari setiap piksel dalam gambar asli, sehingga mempertahankan integritas komposisi gambar ketika menambahkan elemen baru dan memastikan bahwa elemen yang baru ditambahkan secara alami berbaur ke latar belakang.
Ini memecahkan titik -titik nyeri utama dari pengeditan gambar tradisional AI: baik mengubah seluruh gaya gambar atau hanya mengedit area lokal, sehingga sulit untuk menggabungkan elemen dekoratif baru sambil mempertahankan perspektif dan latar belakang asli. Photodoodle dapat mencapai terobosan ini tanpa pelatihan parameter tambahan, sangat meningkatkan efisiensi pemrosesan.

Dalam pengujian yang sebenarnya, Photodoodle dengan mudah berurusan dengan instruksi kompleks dari "membuat kucing lebih putih" menjadi "menambahkan monster merah muda memanjat sebuah bangunan." Dibandingkan dengan seni sebelumnya, ia berkinerja sangat baik dalam tolok ukur seperti kesamaan deskripsi teks-teks, jauh melebihi rekan-rekannya apakah pengeditan yang ditargetkan atau perubahan gambar global.

Saat ini, Photodoodle membutuhkan lusinan pasangan gambar dan ribuan langkah pelatihan untuk menguasai gaya baru. Tim peneliti telah mengalihkan perhatiannya ke metode pelatihan citra tunggal yang lebih efisien dan merilis dataset yang berisi enam gaya seni yang berbeda dan lebih dari 300 pasang gambar. Kode yang relevan juga telah bersumber terbuka di GitHub, memberikan fondasi yang kuat untuk penelitian di masa depan.
Alamat: https://github.com/showlab/photodoodle