เมื่อเร็ว ๆ นี้ Vectara ได้ออกรายงานที่เรียกว่า "รายการภาพหลอน" โดยเปรียบเทียบประสิทธิภาพของภาพหลอนที่ผลิตโดยโมเดลภาษาขนาดใหญ่ที่แตกต่างกัน (LLMS) เมื่อสรุปเอกสารสั้น ๆ การจัดอันดับนี้ใช้รูปแบบการประเมินภาพหลอน Hughes ของ Vectara (HHEM-2. -2.1) ซึ่งได้รับการปรับปรุงอย่างสม่ำเสมอเพื่อประเมินความถี่ของโมเดลเหล่านี้แนะนำข้อมูลเท็จในบทสรุป จากข้อมูลล่าสุดรายงานชี้ให้เห็นตัวชี้วัดที่สำคัญเช่นอัตราภาพหลอนอัตราความสอดคล้องตามข้อเท็จจริงอัตราการตอบสนองและความยาวสรุปเฉลี่ยของชุดของรุ่นยอดนิยม

ในการจัดอันดับล่าสุดซีรี่ส์ Gemini2.0 ของ Google ทำงานได้ดีโดยเฉพาะอย่างยิ่ง Gemini-2.0-Flash-001 ซึ่งติดอันดับรายการด้วยอัตราการเกิดภาพหลอนต่ำ 0.7%แสดงให้เห็นว่ามันแนะนำข้อมูลเท็จเล็กน้อยเมื่อประมวลผลเอกสาร นอกจากนี้ Gemini-2.0-PRO-EXP และ OpenAI ของโมเดล O3-Mini-High-Seining ของ OpenAI นั้นตามมาอย่างใกล้ชิดด้วยอัตราการเกิดภาพหลอน 0.8%และทำงานได้ดี
รายงานยังแสดงให้เห็นว่าแม้ว่าอัตราการหลอนในหลายรุ่นจะเพิ่มขึ้น แต่ส่วนใหญ่ยังคงอยู่ในระดับต่ำและอัตราความสอดคล้องที่เป็นจริงสำหรับหลายรุ่นสูงกว่า 95%ซึ่งบ่งชี้ว่าพวกเขาค่อนข้างแข็งแกร่งในการรับรองว่าข้อมูลเป็นจริง เป็นที่น่าสังเกตว่าอัตราการตอบสนองของแบบจำลองนั้นสูงโดยทั่วไปโดยมีโมเดลส่วนใหญ่เข้าใกล้ 100%ซึ่งหมายความว่าพวกเขาทำงานได้ดีในการทำความเข้าใจและตอบคำถาม
นอกจากนี้รายการการจัดอันดับยังกล่าวถึงความยาวสรุปโดยเฉลี่ยของโมเดลที่แตกต่างกันซึ่งบ่งบอกถึงความแตกต่างในความสามารถของแบบจำลองในแง่ของความเข้มข้นของข้อมูล โดยรวมแล้วการจัดอันดับนี้ไม่เพียง แต่ให้ข้อมูลอ้างอิงที่สำคัญสำหรับนักวิจัยและนักพัฒนา แต่ยังให้ความสะดวกสบายสำหรับผู้ใช้ทั่วไปเพื่อทำความเข้าใจประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ในปัจจุบัน
ทางเข้าจัดอันดับเฉพาะ: https://github.com/vectara/hallucination-leaderboard
ประเด็นสำคัญ:
การจัดอันดับภาพลวงตาล่าสุดประเมินประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ที่แตกต่างกันในบทสรุปเอกสาร
รุ่น Gemini Series ของ Google ทำงานได้ดีโดยมีอัตราการหลอนต่ำถึง 0.7%
อัตราการตอบสนองของโมเดลใกล้เคียงกับ 100%แสดงประสิทธิภาพในการประมวลผลข้อมูล