Evaluasi kinerja model pembuatan citra kecerdasan buatan selalu menjadi fokus industri. Baru-baru ini, Analisis Buatan meluncurkan "Pemeringkatan dan Arena Teks-ke-Gambar" untuk menyediakan platform baru untuk evaluasi objektif model-model ini. Melalui pengumpulan data preferensi manusia berskala besar dan sistem penilaian ELO, platform ini memberi peringkat dan membandingkan beberapa model terkemuka termasuk Midjourney, DALL·E, Stable Diffusion, dll., sehingga memberikan referensi berharga bagi para peneliti dan pengguna.
Baru-baru ini, organisasi penelitian kecerdasan buatan, Artificial Analysis, meluncurkan inisiatif baru yang disebut "Artificial Analysis Text to Image Leaderboard & Arena" untuk mengevaluasi kinerja model-model ini secara komprehensif.
Ikhtisar platform evaluasiSejak diperkenalkannya generator gambar berbasis difusi dua tahun lalu, model gambar AI telah mencapai kualitas mendekati fotografi. Analisis Buatan Papan & Arena Teks ke Gambar didedikasikan untuk membandingkan model pembuatan gambar sumber terbuka dan kepemilikan untuk menentukan efektivitas dan keakuratannya berdasarkan preferensi manusia.
Pemeringkatan platform ini didasarkan pada lebih dari 45.000 preferensi gambar manusia yang dikumpulkan melalui Artificial Analysis Image Arena, dan diperbarui menggunakan sistem penilaian ELO. Evaluasi ini mencakup beberapa model gambar terkemuka, termasuk Midjourney, DALL·E OpenAI, Difusi Stabil dan AI Playground, dll.

Platform ini menggunakan crowdsourcing untuk mengumpulkan data preferensi manusia berskala besar. Peserta diperlihatkan sebuah kata isyarat dan dua gambar yang dihasilkan dan memilih salah satu yang paling cocok dengan kata isyarat tersebut. Setiap model menghasilkan lebih dari 700 gambar yang mencakup gaya dan kategori berbeda, seperti potret, kelompok, hewan, alam, dan seni. Data preferensi yang dikumpulkan digunakan untuk menghitung skor ELO untuk setiap model, sehingga menghasilkan peringkat komparatif.
Wawasan awalPemeringkatan tersebut menunjukkan bahwa meskipun model berpemilik memimpin dalam hal kinerja, alternatif sumber terbuka menjadi semakin kompetitif. Model seperti Midjourney, Stable Diffusion3, dan DALL·E3HD menduduki puncak daftar, sedangkan model open source Playground AI v2.5 juga mengalami kemajuan signifikan, melampaui DALL·E3 OpenAI.
Khususnya, lanskap model pembuatan gambar berubah dengan cepat. Misalnya, DALL·E2, yang tahun lalu masih menempati posisi terdepan, kini terpilih di kurang dari 25% arena dan turun ke model dengan peringkat terendah.
partisipasi publikAnalisis Buatan mendorong masyarakat untuk berpartisipasi dalam tinjauan ini. Pengguna dapat mengakses papan peringkat di Hugging Face dan berpartisipasi dalam proses pemeringkatan melalui Image Arena. Setelah menyelesaikan 30 pilihan gambar, peserta dapat melihat peringkat model yang dipersonalisasi untuk mendapatkan wawasan spesifik sesuai preferensi mereka.
Langkah ini merupakan langkah penting menuju pemahaman dan peningkatan model pembuatan gambar AI. Dengan memanfaatkan preferensi manusia dan pendekatan crowdsourcing yang ketat, platform ini memberikan wawasan berharga mengenai kinerja komparatif model gambar terkemuka. Seiring dengan terus berkembangnya bidang ini, platform seperti ini akan memainkan peran penting dalam memandu perkembangan dan inovasi masa depan dalam pembuatan gambar berbasis AI.
Alamat tautan daftar: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
Secara keseluruhan, "Peringkat dan Arena Teks-ke-Gambar" Analisis Buatan menghadirkan platform evaluasi yang transparan dan kompetitif ke bidang pembuatan gambar AI, dan pembaruan berkelanjutan serta partisipasi publik akan semakin mendorong kemajuan teknologi di bidang ini. Kami berharap dapat melihat lebih banyak model ditambahkan dan perubahan peringkat di masa mendatang.