Laporan editor Downcode: Tim InstantX, bersama dengan tim peneliti dari Universitas Sains dan Teknologi Nanjing, Universitas Beihang, dan Universitas Peking, bersama-sama mengembangkan model transfer gaya baru yang disebut CSGO. Model ini bertujuan untuk mendobrak hambatan dalam teknologi pembuatan gambar, terutama untuk mencapai peningkatan signifikan dalam integrasi konten dan gaya. Model CSGO mendukung tiga mode transfer gaya, yang mencakup berbagai skenario aplikasi seperti gambar dan gambar, gambar dan teks, dan gambar pengeditan teks, yang menunjukkan fungsionalitas dan fleksibilitasnya yang kuat. Mari kita lihat lebih dekat model AI yang mengesankan ini.
Baru-baru ini, tim InstantX, bersama dengan tim peneliti dari Universitas Sains dan Teknologi Nanjing, Universitas Beihang, dan Universitas Peking, bersama-sama mengembangkan model transfer gaya baru yang disebut CSGO, yang bertujuan untuk meningkatkan teknologi pembuatan gambar, terutama dalam kombinasi konten dan gaya.

CSGO terutama mendukung 3 mode migrasi gaya, sebagai berikut:
1. Gambar konten + gambar referensi gaya untuk menyatukan gambar gaya konten. Misalnya, dalam kasus berikut, jika Anda memberikan gambar asli yang perlu diubah gayanya, seperti "beruang, rumah", lalu memberikan gambar referensi gaya, Anda dapat mengubah gaya gambar asli menjadi referensi gambar gaya.

2. Gambar referensi gaya + petunjuk teks untuk mensintesis gambar gaya dengan konten teks. Misalnya, dalam kasus berikut, jika gambar gaya referensi diberikan dan perintah teks diberikan, seperti "kucing, anjing, manusia, panda", gambar gaya konten yang sesuai dapat dibuat.

3) Edit objek tertentu dalam gambar melalui teks.

Inti dari model CSGO terletak pada proses konstruksi datanya yang unik. Tim peneliti dengan cermat merancang pembuatan data dan saluran pembersihan otomatis untuk membangun kumpulan data transfer gaya skala besar yang disebut IMAGStyle. Kumpulan data ini berisi 210.000 gambar rangkap tiga dan telah menjadi sumber penting untuk penelitian akademis dan eksplorasi teknologi pembuatan gambar.
Konsep desain model ini sangat baru. CSGO dapat dengan jelas membedakan konten dan fitur gaya selama proses pembuatan gambar. Keuntungan dari model ini, kata para peneliti, adalah metode pelatihannya yang menyeluruh, yang berarti tidak diperlukan penyesuaian selama fase inferensi.
Pada saat yang sama, keunggulan lain dari model CSGO adalah model ini mempertahankan kemampuan pembuatan model teks-ke-gambar asli tanpa pelatihan UNet. Melalui inovasi ini, CSGO mencapai transfer gaya berbasis gambar, sintesis gaya berbasis teks, dan sintesis gaya berbasis pengeditan teks.
Dalam hal hasil eksperimen, CSGO tampil sangat baik. Para peneliti memberikan serangkaian data perbandingan kuantitatif dan visual, melakukan perbandingan komprehensif dengan metode terbaru yang ada, dan menunjukkan keunggulan CSGO dalam kemampuan kontrol gaya.
Menyorot:
Model CSGO berhasil menghasilkan kumpulan data IMAGStyle yang berisi 210.000 gambar tiga kali lipat melalui jalur konstruksi data yang inovatif.
Model ini mencapai pemisahan yang jelas antara konten dan gaya serta mendukung berbagai metode pembuatan, termasuk transfer gaya berbasis gambar dan berbasis teks.
? Hasil eksperimen menunjukkan bahwa CSGO mengungguli teknologi yang ada dalam hal kemampuan kontrol gaya, menunjukkan tingkat baru dalam menghasilkan gambar.
Kemunculan model CSGO menandai terobosan baru dalam teknologi pembuatan gambar. Performanya yang luar biasa dalam transfer gaya dan metode konstruksi data yang inovatif memberikan arahan dan inspirasi baru untuk penelitian generasi gambar di masa depan. Editor Downcodes berharap model CSGO dapat diterapkan di lebih banyak bidang dan memberikan pengalaman visual yang lebih menarik!