การประเมินประสิทธิภาพของโมเดลการสร้างภาพปัญญาประดิษฐ์ถือเป็นจุดสนใจของอุตสาหกรรมมาโดยตลอด เมื่อเร็วๆ นี้ Artificial Analysis ได้เปิดตัว "การจัดอันดับและสนามกีฬาจากข้อความเป็นรูปภาพ" เพื่อเป็นแพลตฟอร์มใหม่สำหรับการประเมินตามวัตถุประสงค์ของโมเดลเหล่านี้ แพลตฟอร์มดังกล่าวจัดอันดับและเปรียบเทียบโมเดลชั้นนำหลายรายการ ผ่านการรวบรวมข้อมูลความชอบของมนุษย์ในวงกว้างและระบบการให้คะแนนของ ELO รวมถึง Midjourney, DALL·E, Stable Diffusion ฯลฯ ซึ่งเป็นข้อมูลอ้างอิงที่มีคุณค่าสำหรับนักวิจัยและผู้ใช้
เมื่อเร็วๆ นี้ องค์กรวิจัยปัญญาประดิษฐ์ Artificial Analysis ได้เปิดตัวโครงการริเริ่มใหม่ที่เรียกว่า "Artificial Analysis Text to Image Leaderboard & Arena" เพื่อประเมินประสิทธิภาพของโมเดลเหล่านี้อย่างครอบคลุม
ภาพรวมแพลตฟอร์มการประเมินผลนับตั้งแต่เปิดตัวเครื่องสร้างภาพแบบกระจายเมื่อสองปีที่แล้ว โมเดลภาพ AI ก็ได้คุณภาพที่ใกล้เคียงภาพถ่าย กระดานผู้นำการวิเคราะห์ข้อความเป็นรูปภาพ & อารีน่ามีไว้สำหรับการเปรียบเทียบโมเดลการสร้างภาพแบบโอเพ่นซอร์สและที่เป็นกรรมสิทธิ์ เพื่อพิจารณาประสิทธิภาพและความแม่นยำตามความต้องการของมนุษย์
การจัดอันดับของแพลตฟอร์มอิงตามการตั้งค่ารูปภาพมนุษย์มากกว่า 45,000 รูปที่รวบรวมผ่าน Artificial Analysis Image Arena ซึ่งอัปเดตโดยใช้ระบบการให้คะแนน ELO การประเมินครอบคลุมโมเดลรูปภาพชั้นนำหลายโมเดล รวมถึง Midjourney, DALL·E ของ OpenAI, Stable Diffusion และ Playground AI เป็นต้น

แพลตฟอร์มดังกล่าวใช้การระดมทุนจากมวลชนเพื่อรวบรวมข้อมูลการตั้งค่าของมนุษย์ในวงกว้าง ผู้เข้าร่วมจะได้เห็นคำคิวและรูปภาพที่สร้างขึ้นสองภาพ และเลือกคำที่ตรงกับคำคิวมากที่สุด แต่ละแบบจำลองจะสร้างภาพมากกว่า 700 ภาพที่ครอบคลุมสไตล์และหมวดหมู่ที่แตกต่างกัน เช่น ภาพบุคคล กลุ่ม สัตว์ ธรรมชาติ และศิลปะ ข้อมูลการตั้งค่าที่รวบรวมไว้จะถูกใช้ในการคำนวณคะแนน ELO สำหรับแต่ละรุ่น ส่งผลให้เกิดการจัดอันดับเชิงเปรียบเทียบ
ข้อมูลเชิงลึกเบื้องต้นการจัดอันดับแสดงให้เห็นว่าแม้ว่าโมเดลที่เป็นกรรมสิทธิ์จะเป็นผู้นำในด้านประสิทธิภาพ แต่ทางเลือกโอเพ่นซอร์สก็มีการแข่งขันกันมากขึ้น โมเดลต่างๆ เช่น Midjourney, Stable Diffusion3 และ DALL·E3HD อยู่ในอันดับต้นๆ ในขณะที่โมเดลโอเพ่นซอร์ส Playground AI v2.5 ก็มีความก้าวหน้าอย่างมากเช่นกัน โดยแซงหน้า DALL·E3 ของ OpenAI
ที่น่าสังเกตก็คือ ภูมิทัศน์ของโมเดลการสร้างภาพกำลังเปลี่ยนแปลงอย่างรวดเร็ว ตัวอย่างเช่น DALL·E2 ซึ่งยังคงอยู่ในตำแหน่งผู้นำในปีที่แล้ว ปัจจุบันได้รับเลือกน้อยกว่า 25% ของเวทีและตกลงไปอยู่ในรุ่นที่มีอันดับต่ำที่สุด
การมีส่วนร่วมของประชาชนการวิเคราะห์เชิงประดิษฐ์สนับสนุนให้ประชาชนมีส่วนร่วมในการทบทวนนี้ ผู้ใช้สามารถเข้าถึงกระดานผู้นำบน Hugging Face และมีส่วนร่วมในกระบวนการจัดอันดับผ่าน Image Arena หลังจากเลือกภาพครบ 30 ภาพแล้ว ผู้เข้าร่วมสามารถดูการจัดอันดับโมเดลส่วนบุคคลเพื่อรับข้อมูลเชิงลึกเฉพาะเจาะจงตามความต้องการของพวกเขา
การเคลื่อนไหวครั้งนี้เป็นก้าวสำคัญในการทำความเข้าใจและปรับปรุงโมเดลการสร้างภาพ AI ด้วยการใช้ประโยชน์จากความชอบของมนุษย์และวิธีการระดมทุนจากมวลชนที่เข้มงวด แพลตฟอร์มดังกล่าวจึงให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับประสิทธิภาพเชิงเปรียบเทียบของโมเดลรูปภาพชั้นนำ ในขณะที่สาขานี้มีการพัฒนาอย่างต่อเนื่อง แพลตฟอร์มเช่นนี้จะมีบทบาทสำคัญในแนวทางการพัฒนาและนวัตกรรมในอนาคตในการสร้างภาพที่ขับเคลื่อนด้วย AI
ที่อยู่ลิงก์รายการ: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
โดยสรุปแล้ว "การจัดอันดับและเวทีจากการอ่านข้อความเป็นรูปภาพ" ของการวิเคราะห์เชิงประดิษฐ์ ได้นำแพลตฟอร์มการประเมินที่โปร่งใสและแข่งขันได้มาสู่แวดวงการสร้างภาพ AI นอกจากนี้ การอัปเดตอย่างต่อเนื่องและการมีส่วนร่วมของประชาชนจะช่วยส่งเสริมความก้าวหน้าทางเทคโนโลยีในสาขานี้ต่อไป เราหวังว่าจะเห็นโมเดลเพิ่มเติมและการเปลี่ยนแปลงอันดับในอนาคต