Visual Large Model (LVLM) มีความก้าวหน้าอย่างมากในด้านความเข้าใจเกี่ยวกับภาพ แต่ "ปรากฏการณ์ภาพลวงตา" ได้กลายเป็นคอขวดในการพัฒนา เพื่อแก้ไขปัญหานี้ ทีมงาน Taotian Group Future Life Laboratory ได้เสนอวิธีการใหม่ที่เรียกว่า "Token Preference Optimization" (TPO) ซึ่งช่วยปรับปรุงผลกระทบต่อการมองเห็นของโมเดลได้อย่างมีประสิทธิภาพ โดยการแนะนำกลไกการให้รางวัลการยึดด้วยการมองเห็นที่ปรับเทียบด้วยตนเอง ซึ่งช่วยลดการพึ่งพาข้อมูล ความน่าจะเป็นของภาพหลอน หัวใจสำคัญของ TPO คือการสร้างสัญญาณรางวัลระดับโทเค็นโดยอัตโนมัติ หลีกเลี่ยงการใส่คำอธิบายประกอบด้วยตนเองที่น่าเบื่อ และมอบหมายรางวัลให้กับแต่ละโทเค็นที่สะท้อนถึงการพึ่งพาข้อมูลภาพ และปรับปรุงประสิทธิภาพของโมเดล

นวัตกรรมที่ใหญ่ที่สุดของ TPO คือการใช้สัญญาณรางวัลระดับโทเค็นอัตโนมัติ วิธีนี้สามารถระบุโทเค็นที่ยึดด้วยภาพในข้อมูลการตั้งค่าได้โดยอัตโนมัติ หลีกเลี่ยงการใส่คำอธิบายประกอบแบบละเอียดที่น่าเบื่อแบบแมนนวล ในขณะเดียวกันก็มอบรางวัลให้กับโทเค็นแต่ละอันที่สะท้อนถึงการพึ่งพาข้อมูลภาพในระหว่างกระบวนการฝึกอบรม สัญญาณรางวัลที่ยึดด้วยสายตาที่ปรับเทียบด้วยตนเองนี้ ได้รับการออกแบบมาเพื่อเพิ่มประสิทธิภาพการพึ่งพาข้อมูลภาพของโมเดล จึงช่วยลดการเกิดอาการประสาทหลอนได้อย่างมีประสิทธิภาพ

การวิจัยแสดงให้เห็นว่าแบบจำลองที่ใช้ TPO มีประสิทธิภาพเหนือกว่าวิธีการแบบเดิมอย่างมากในการวัดประสิทธิภาพการประเมินหลายรายการ โดยเฉพาะอย่างยิ่งในงานที่ซับซ้อนมากขึ้น ซึ่งคำตอบที่สร้างโดยแบบจำลองนั้นอาศัยข้อมูลรูปภาพมากขึ้น มากกว่าความรู้เดิมเกี่ยวกับแบบจำลองภาษา ความก้าวหน้านี้ไม่เพียงแต่ช่วยเพิ่มความเข้าใจในแบบจำลองเท่านั้น แต่ยังเป็นพื้นฐานทางทฤษฎีที่สำคัญสำหรับการวิจัยเพิ่มเติมอีกด้วย
นอกจากนี้ ทีมวิจัยยังได้ทำการทดลองระเหยด้วยการตั้งค่าพารามิเตอร์ต่างๆ ของ TPO และพบว่าขั้นตอนการเพิ่มเสียงรบกวนที่เหมาะสมและกลยุทธ์การกระจายรางวัลสามารถปรับปรุงประสิทธิภาพของแบบจำลองต่อไปได้ การค้นพบนี้ชี้ให้เห็นถึงทิศทางสำหรับการวิจัยในอนาคตและการประยุกต์ใช้แบบจำลองภาพขนาดใหญ่อย่างไม่ต้องสงสัย
กล่าวโดยสรุป ความสำเร็จเชิงนวัตกรรมของ Taotian ทำให้เกิดแนวคิดใหม่สำหรับเทคโนโลยีการจัดตำแหน่งหลายรูปแบบ และส่งเสริมการประยุกต์ใช้เทคโนโลยี AI ในเชิงลึกในด้านชีวิตและการบริโภค
ด้วยการประยุกต์ใช้วิธี TPO ปัญหา "ภาพลวงตา" ของแบบจำลองภาพขนาดใหญ่ได้รับการแก้ไขอย่างมีประสิทธิภาพ ความน่าเชื่อถือและความแม่นยำของแบบจำลองได้รับการปรับปรุง และมีทิศทางใหม่สำหรับการพัฒนาแบบจำลองภาพขนาดใหญ่ในอนาคต ทิศทางใหม่สำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในชีวิตจริง แอปพลิเคชันดังกล่าวได้วางรากฐานที่มั่นคงและมีความสำคัญทางทฤษฎีและคุณค่าของการประยุกต์ที่สำคัญ ผลการวิจัยนี้มีส่วนช่วยในการพัฒนาเทคโนโลยีหลายรูปแบบ