Di bidang pembuatan gambar, teknologi generasi gambar multi-lapisan memimpin revolusi yang telah sepenuhnya mengubah cara pengguna berinteraksi dengan model generatif. Teknologi ini memungkinkan pengguna untuk mengisolasi, memilih dan mengedit lapisan gambar tertentu, sehingga memberikan kebebasan kreatif yang belum pernah terjadi sebelumnya. Baru-baru ini, tim peneliti Microsoft meluncurkan teknologi inovatif yang disebut "Anonymous Region Transformer" (ART), yang secara langsung dapat menghasilkan gambar transparan multi-lapisan variabel berdasarkan isyarat teks global dan tata letak regional anonim.

Desain Art terinspirasi oleh "teori skema", yang memungkinkan model generatif untuk secara mandiri memutuskan informasi visual mana yang selaras dengan informasi teks mana dengan mengadopsi tata letak regional anonim. Pendekatan ini sangat kontras dengan tata letak semantik tradisional. Tata letak semantik tradisional biasanya membutuhkan korespondensi yang jelas, sedangkan tata letak area anonim ART memberikan fleksibilitas yang lebih besar, membuat proses generasi lebih cerdas dan efisien.
Perlu disebutkan bahwa ART memperkenalkan mekanisme penanaman berbasis area-demi-lapis, yang hanya memilih informasi visual yang terkait dengan setiap area anonim, sehingga secara signifikan mengurangi biaya perhitungan perhatian. Metode ini tidak hanya mempercepat kecepatan generasi, membuatnya lebih dari 12 kali lebih cepat dari metode perhatian penuh, tetapi juga secara efektif mengurangi konflik antar lapisan dan dapat menangani pembuatan gambar di lebih dari 50 level yang berbeda. Kemampuan pemrosesan yang efisien ini memberikan dukungan kuat untuk tugas pembuatan gambar yang kompleks.
Selain itu, ART juga mengusulkan autoencoder gambar transparan multi-lapisan berkualitas tinggi yang mendukung transparansi gambar multi-lapisan variabel yang dikodekan dan diterjemahkan dengan cara bersama. Desain inovatif ini memberikan kemungkinan baru untuk kontrol yang tepat dan generasi lapisan yang dapat diskalakan, lebih lanjut mendorong pengembangan pembuatan konten interaktif. Melalui teknologi ini, pengguna dapat mengontrol semua tingkat gambar lebih fleksibel dan mencapai pengeditan dan penciptaan yang lebih halus.
Proyek: https://art-msra.github.io/
Poin -Poin Kunci:
Seni dapat secara langsung menghasilkan gambar transparan multi-lapisan berdasarkan permintaan teks global dan tata letak regional anonim.
Mekanisme penanaman area-per-lapis diadopsi untuk secara signifikan meningkatkan efisiensi pembuatan gambar, yang 12 kali lebih cepat daripada metode tradisional.
Autoencoder berkualitas tinggi baru mendukung kontrol yang tepat dan generasi gambar transparan multi-lapisan, mempromosikan pembuatan konten interaktif.