人工智慧影像生成模型的效能評估一直是業界關注的焦點。近日,Artificial Analysis 推出了“文字到圖像排行榜與競技場”,為客觀評估這些模型提供了新的平台。該平台透過大規模的人類偏好資料收集和ELO評分系統,對包括Midjourney、DALL·E、Stable Diffusion等在內的多個領先模型進行排名和比較,為研究者和使用者提供了寶貴的參考。
近日,人工智慧研究組織Artificial Analysis推出了一項名為"Artificial Analysis Text to Image Leaderboard & Arena"(文字到圖像排行榜與競技場)的新舉措,旨在全面評估這些模型的性能。
評測平台概述自從兩年前引入基於擴散的圖像生成器以來,AI圖像模型已經達到了接近照片級的品質。 Artificial Analysis Text to Image Leaderboard & Arena致力於比較開源和專有的圖像生成模型,根據人類偏好來確定它們的效果和準確性。
該平台的排行榜是基於透過Artificial Analysis Image Arena收集的超過45,000個人類別影像偏好,並使用ELO評分系統進行更新。評測涵蓋了多個領先的影像模型,包括Midjourney、OpenAI的DALL·E、Stable Diffusion和Playground AI等。

平台採用眾包方式收集大規模人類偏好資料。參與者會看到一個提示詞和兩張生成的圖像,然後選擇最符合提示詞的那張。每個模型會產生700多張涵蓋不同風格和類別的圖像,如人物肖像、群體、動物、自然和藝術等。收集的偏好資料用於計算每個模型的ELO分數,從而形成比較排名。
初步洞察排行榜顯示,雖然專有車型在效能上領先,但開源替代方案正變得越來越具有競爭力。 Midjourney、Stable Diffusion3和DALL·E3HD等模型位居榜首,而開源模型Playground AI v2.5也取得了顯著進展,超過了OpenAI的DALL·E3。
值得注意的是,影像生成模型的格局正在迅速變化。例如,去年仍處於領先地位的DALL·E2,現在在競技場中被選中的比例不到25%,已跌至排名最低的模型之列。
公眾參與Artificial Analysis鼓勵大眾參與這項評測。用戶可以存取Hugging Face上的排行榜,並透過Image Arena參與排名過程。完成30次影像選擇後,參與者可以查看個人化的模型排名,從而獲得針對自己偏好的洞察。
這項措施為理解和改進AI圖像生成模型邁出了重要一步。透過利用人類偏好和嚴格的眾包方法,該平台為領先影像模型的比較性能提供了寶貴的見解。隨著該領域的不斷發展,這類平台將在指導AI驅動的影像生成的未來發展和創新方面發揮關鍵作用。
榜單連結網址:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
總而言之,Artificial Analysis 的「文字到圖像排行榜與競技場」為AI圖像生成領域帶來了一個透明且具有競爭力的評估平台,其持續的更新和公眾參與將進一步推動該領域的技術進步。 我們期待看到未來更多模型的加入和排名變化。