งานวิจัยใหม่จาก DeepMind แสดงให้เห็นว่าแบบจำลองภาษาขนาดใหญ่มีประสิทธิภาพเหนือกว่าคำอธิบายประกอบที่เป็นมนุษย์ในการประเมินข้อเท็จจริง การศึกษานี้ใช้ตัวประเมิน SAFE สำหรับการประเมินข้อเท็จจริงโดยอัตโนมัติ และดำเนินการเปรียบเทียบที่ครอบคลุมกับชุดข้อมูล LongFact ซึ่งแสดงให้เห็นว่าแบบจำลองขนาดใหญ่ทำงานได้ดีในการประมวลผลข้อมูลข้อเท็จจริงขนาดยาว งานวิจัยนี้ไม่เพียงพิสูจน์ถึงข้อดีของแบบจำลองขนาดใหญ่ในด้านการประเมินข้อเท็จจริงเท่านั้น แต่ที่สำคัญกว่านั้นคือ ทีมงาน DeepMind ได้ใช้ผลการวิจัยทั้งหมดแบบโอเพ่นซอร์สอย่างเต็มรูปแบบ ซึ่งเป็นทรัพยากรที่มีคุณค่าสำหรับภาควิชาการและอุตสาหกรรม
รายงานล่าสุดของ DeepMind เปิดเผยข้อดีของแบบจำลองขนาดใหญ่ในการประเมินข้อเท็จจริง การวิจัยแสดงให้เห็นว่าแบบจำลองภาษาขนาดใหญ่สามารถเหนือกว่าประสิทธิภาพของคำอธิบายประกอบที่เป็นมนุษย์ และบรรลุการประเมินข้อเท็จจริงโดยอัตโนมัติผ่านตัวประเมิน SAFE นักวิจัยได้ทำการเปรียบเทียบอย่างกว้างขวางโดยใช้ชุดข้อมูล LongFact และผลลัพธ์ที่ได้แสดงให้เห็นว่าแบบจำลองขนาดใหญ่ทำงานได้ดีในด้านข้อเท็จจริงที่ยาวนาน การศึกษาทั้งหมดเน้นถึงข้อดีของแบบจำลองขนาดใหญ่ในการประเมินข้อเท็จจริงและเป็นโอเพ่นซอร์สเต็มรูปแบบผลการวิจัยครั้งนี้น่าให้กำลังใจ ไม่เพียงแต่ส่งเสริมความก้าวหน้าของปัญญาประดิษฐ์ในด้านการประเมินข้อเท็จจริงเท่านั้น แต่ยังเป็นแนวทางใหม่สำหรับการประยุกต์ใช้แบบจำลองขนาดใหญ่ในอนาคตในด้านความน่าเชื่อถือของข้อมูล กลยุทธ์โอเพ่นซอร์สยังปูทางไปสู่การวิจัยและการประยุกต์ใช้ในวงกว้าง และมันก็คุ้มค่าที่จะรอคอยการพัฒนาครั้งต่อไป