การตรวจจับฮอลลูคิวที่ยอดเยี่ยม
อ้างถึงที่เก็บนี้
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
เอกสารและบทสรุป
พฤติกรรมการเลือกความรู้ในการควบคุมใน LLM ผ่านวิศวกรรมการเป็นตัวแทนที่ใช้ SAE
- ตัวชี้วัด: การจับคู่ที่แน่นอน
- ชุดข้อมูล: NQSWAP, MacNoise
- ความคิดเห็น: งานแรกที่ใช้การเข้ารหัสอัตโนมัติแบบเบาบาง (SAES) เพื่อปรับปรุงทั้งการใช้ความรู้เชิงบริบทและพารามิเตอร์
ดาวอังคาร: การให้คะแนนการตอบสนองที่ตระหนักถึงความหมายสำหรับการประมาณความไม่แน่นอนใน LLM แบบกำเนิด
- ตัวชี้วัด: Auroc
- ชุดข้อมูล: Triviaqa, NaturalQa, Webqa
- ความคิดเห็น: เทคนิคการประมาณค่าความไม่แน่นอนของ LLM ที่เรียกว่า Mars แทนที่การให้คะแนนความน่าจะเป็นตามปกติโดยการกำหนดน้ำหนักที่มากขึ้นให้กับโทเค็นที่มีส่วนสำคัญต่อความถูกต้องมากขึ้น
อย่าออกแบบเรียนรู้: ฟังก์ชั่นการให้คะแนนที่สามารถฝึกอบรมได้สำหรับการประเมินความไม่แน่นอนใน LLM แบบกำเนิด
- ตัวชี้วัด: Auroc, PRR
- ชุดข้อมูล: Triviaqa, GSM8K, NaturalQa, Webqa
- ความคิดเห็น: เทคนิคการประมาณค่าความไม่แน่นอนของ LLM ที่เรียกว่า LARS ฝึกฝนหม้อแปลงที่ใช้ตัวเข้ารหัสซึ่งใช้การสืบค้นการสร้างและความน่าจะเป็นโทเค็นเป็นอินพุตและส่งคืนคะแนนความไม่แน่นอนเป็นเอาต์พุต
ความไม่แน่นอนเชิงปริมาณในคำตอบจากรูปแบบภาษาใด ๆ และเพิ่มความน่าเชื่อถือของพวกเขา
- ตัวชี้วัด: ความแม่นยำความแม่นยำ/การเรียกคืน/auroc
- ชุดข้อมูล: Triviaqa, GSM8K, SVAMP, QA สามัญสำนึก
- ความคิดเห็น: เทคนิคการประมาณค่าความไม่แน่นอนของ LLM ที่เรียกว่า BSDetector ที่รวมความมั่นใจในการสะท้อนตนเองและสังเกตความสอดคล้องเป็นคะแนนความเชื่อมั่นเดียว ตรวจจับการตอบสนอง LLM ที่ไม่ถูกต้อง/หลอนด้วยความแม่นยำสูง/การเรียกคืนและยังสามารถเพิ่มความแม่นยำของการตอบสนอง LLM โดยอัตโนมัติ
decore: การถอดรหัสโดยการตัดกันหัวดึงเพื่อลดภาพหลอน
- ตัวชี้วัด: MC1, MC2, MC3 คะแนนสำหรับงานแบบปรนัย TURDFULQA; %ความจริง, ข้อมูล %, %ความจริง*ข้อมูลสำหรับงานรุ่นเปิดปลายเปิด การจับคู่ที่แน่นอนสำหรับงาน QA แบบเปิดโดเมน (NQ-Open, NQ-Swap, Triviaqa, Popqa, Musique); ความแม่นยำสำหรับ memotrap; ความถูกต้องระดับและระดับการเรียนการสอนสำหรับ IFEVAL
- ชุดข้อมูล: Truthfulqa, NQ-Open, NQ-Swap, Triviaqa, Popqa, Memotrap, Ifeval, Musique
การใช้ประโยชน์จากภาพหลอนเพื่อลดการพึ่งพาพร้อมใช้งานด้วยตนเองในการแบ่งกลุ่ม
- ตัวชี้วัด: Mae, F_ {Beta}, S_ {Alpha}
- ชุดข้อมูล: Chameleon, Camo, Cod10k, CVC-Colondb, Kvasir, ISIC
- ความคิดเห็น: การศึกษาครั้งแรกไม่ถือว่าภาพหลอนเป็นลบอย่างหมดจด แต่เป็นลักษณะทั่วไปของการฝึกอบรมก่อนแบบจำลอง ซึ่งแตกต่างจากวิธีการก่อนหน้านี้ที่กำจัดภาพหลอนโดยตรง Promac แรกกระตุ้นภาพหลอนเพื่อขุดความรู้ก่อนหน้าจากการฝึกอบรมก่อนการฝึกอบรมเพื่อรวบรวมข้อมูลที่เกี่ยวข้องกับงานในภาพ จากนั้นจะกำจัดภาพหลอนที่ไม่เกี่ยวข้องเพื่อลดผลกระทบด้านลบ ประสิทธิผลของวิธีนี้แสดงให้เห็นในงานการแบ่งส่วนที่ท้าทายหลายอย่าง
GraphEval: กรอบการประเมินภาพหลอน LLM ที่ใช้กราฟความรู้
- ตัวชี้วัด: ความแม่นยำ (การตรวจจับ), รูจ (แก้ไข)
- ชุดข้อมูล: Summeval, QAGS-C, QAGS-X
- ความคิดเห็น: เสนอการตรวจจับภาพหลอน กราฟเวล และกรอบการทำงาน ของกราฟเฟรม การตรวจจับภาพหลอนทำได้โดยการสกัด KG triples จากเอาท์พุท LLM และเปรียบเทียบการส่งข้อมูลของอเนกประสงค์ที่เกี่ยวข้องกับบริบทที่ให้ไว้ การแก้ไขทำได้โดยการใช้สามเท่าที่มีแนวโน้มที่จะมีภาพหลอน (entailment ต่ำกว่า 0.5) จะกระตุ้นให้ LLM สร้างใหม่ที่ถูกต้องจริงสามเท่าเกี่ยวกับบริบทที่ให้ไว้ หลังจากนั้นในการอนุมานแยกต่างหากผ่าน LLM จะได้รับแจ้งให้แทนที่ข้อมูลในเอาต์พุต LLM ที่ไม่เป็นทางการตามสามสามที่แก้ไข โมเดล NLI พื้นฐานที่ใช้สำหรับการทดลองคือ HHEM (debertav3), True และ Trueteacher (T5-XXL) LLM พื้นฐานที่ใช้คือ Claude2 การทดลองขั้นสุดท้ายดำเนินการโดยการคำนวณคะแนนรูจระหว่างข้อความอ้างอิงและวิธีการบรรเทาผลกระทบที่เสนอ
Lynx: รูปแบบการประเมินภาพหลอนโอเพ่นซอร์ส
- ตัวชี้วัด: ความแม่นยำ
- ชุดข้อมูล: Halubench (ประกอบด้วยตัวอย่างสุ่มประมาณ 500 ตัวอย่างจาก Covidqa, PubMedqa, Drop, FinanceBench และอีกชุดหนึ่งของการก่อกวนตามตัวอย่างที่ดึงมา)
- ความคิดเห็น: เสนอทรัพยากร Halubench และ Lynx (LLAMA3-70BN-Instruct Model) สำหรับการประเมินตัวชี้วัดที่ปราศจากการอ้างอิง การมุ่งเน้นคือการประเมินภาพหลอนที่เป็นเครื่องมือหมายถึงคำตอบที่ซื่อสัตย์ต่อบริบทที่กำหนดแทนที่จะเป็นความรู้ของโลก ตัวอย่างภาพหลอนสำหรับ Halubench จะรวบรวมด้วย GPT-4O การฝึกอบรมของ Lynx จะทำใน 2,400 ตัวอย่างจาก Ragtruth, Drop, Covidqa, PubMedqa ด้วยการสร้างเหตุผล GPT4O ซึ่งเป็นส่วนหนึ่งของตัวอย่างการฝึกอบรม การประเมินผลทำได้โดยการแยกฉลากไบนารีระดับการตอบสนองที่แสดงถึงความซื่อสัตย์ของการตอบสนองต่อบริบท
LLMS hallucinate กราฟเช่นกัน: มุมมองโครงสร้าง
- ตัวชี้วัด: ระยะการแก้ไขกราฟระยะทางสเปกตรัมระยะห่างระหว่างการแจกแจงระดับ
- ชุดข้อมูล: กราฟ Atlas ระยะทาง
- ความคิดเห็น: เกณฑ์มาตรฐานนี้นำเสนอความสามารถในการแจ้ง LLM โดยตรงสำหรับโครงสร้างกราฟที่รู้จัก ระยะทางจากเอาต์พุตของ LLMS และกราฟความจริงภาคพื้นดินได้รับการศึกษา การจัดอันดับตามระยะการแก้ไขกราฟเรียงลำดับ LLM ในแอมพลิจูดของภาพหลอน
HallusionBench: ชุดวินิจฉัยขั้นสูงสำหรับภาพหลอนภาษาที่พันกันและภาพลวงตาในรูปแบบภาษาวิสัยทัศน์ขนาดใหญ่
- ตัวชี้วัด: ความแม่นยำ
- ชุดข้อมูล: HallusionBench
- ความคิดเห็น: เกณฑ์มาตรฐานนี้นำเสนอความท้าทายที่สำคัญสำหรับโมเดลภาษาภาพขนาดใหญ่ (LVLMS) เช่น GPT-4V (วิสัยทัศน์), Gemini Pro Vision, Claude 3 และ LLAVA-1.5 โดยเน้นความเข้าใจที่เหมาะสมและการตีความข้อมูลภาพ บทความนี้แนะนำโครงสร้างใหม่สำหรับคำถามภาพเหล่านี้ที่ออกแบบมาเพื่อสร้างกลุ่มควบคุม โครงสร้างนี้สามารถทำการวิเคราะห์เชิงปริมาณของแนวโน้มการตอบสนองของแบบจำลองความสอดคล้องเชิงตรรกะและโหมดความล้มเหลวต่างๆ
การตรวจจับภาพหลอนแบบครบวงจรสำหรับแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ
- ตัวชี้วัด: ความแม่นยำ, F1/ความแม่นยำ/การเรียกคืน
- ชุดข้อมูล: Mhalubench
- เฟรมเวิร์ก: unihd
- ความคิดเห็น: บทความนี้เสนอการตั้งค่าที่เป็นเอกภาพมากขึ้นสำหรับการตรวจจับภาพหลอนใน MLLMS, เปิดตัวมาตรฐานการประเมินอภิมาน Mhalubench ที่ครอบคลุมประเภทภาพหลอนต่าง ๆ และงานที่หลากหลาย
factchd: การเปรียบเทียบการตรวจจับภาพหลอนข้อเท็จจริงข้อเท็จจริง
- ตัวชี้วัด: F1 ของการตรวจจับการจับคู่ของคำอธิบาย
- ชุดข้อมูล: factchd
- ไฮไลท์: บทความนี้แนะนำเกณฑ์มาตรฐาน factchd ซึ่งมุ่งเน้นไปที่การตรวจจับภาพหลอนที่สอดคล้องกับข้อเท็จจริง FactChd รวมความรู้ที่เป็นข้อเท็จจริงจากหลายโดเมนครอบคลุมรูปแบบความจริงที่หลากหลายรวมถึงข้อเท็จจริงดิบการให้เหตุผลหลายครั้งการเปรียบเทียบและการดำเนินการที่ตั้งไว้ คุณลักษณะที่แตกต่างของมันอยู่ในเป้าหมายที่จะรวมหลักฐานที่มีรากฐานมาจากข้อมูลที่เป็นข้อเท็จจริงทำให้การใช้เหตุผลเชิงโน้มน้าวใจในการทำนายความเป็นจริงหรือความไม่เหมาะสมของการเรียกร้อง
ความสนใจเป็นไปตาม: เลนส์ความพึงพอใจข้อ จำกัด เกี่ยวกับข้อผิดพลาดที่เป็นข้อเท็จจริงของแบบจำลองภาษา
- Metrics: Auroc, จุดปฏิบัติการโค้งความเสี่ยง
- ชุดข้อมูล: counterfact, การสืบค้นข้อเท็จจริงที่สร้างขึ้นจาก Wikidata
- ความคิดเห็น: บทความนี้แบบจำลองการสอบถามข้อเท็จจริงเป็นปัญหาข้อ จำกัด และพบว่าการให้ความสนใจกับโทเค็นข้อ จำกัด มีความสัมพันธ์อย่างมีนัยสำคัญกับความถูกต้องตามข้อเท็จจริง/ภาพหลอน
จริง: ประเมินการประเมินความสอดคล้องตามข้อเท็จจริงอีกครั้ง
- ตัวชี้วัด: Auroc ในชุดข้อมูลหลายชุดและวิธีการประเมินผล
- ชุดข้อมูล: Paws, Xsum, Qags, Frank, Summeval, เริ่มต้น, Q^2, dialfact, ไข้, Vitaminc
Trueteacher: การเรียนรู้การประเมินความสอดคล้องที่เป็นจริงด้วยแบบจำลองภาษาขนาดใหญ่
- ตัวชี้วัด: Auroc ในชุดข้อมูลหลายชุดและวิธีการประเมินผล
- ชุดข้อมูล: Xsum, Qags, Frank, Summeval
ถุง $^3 $ : การตรวจจับภาพหลอนที่เชื่อถือได้ในรูปแบบภาษา Black-Box ผ่านความสอดคล้องข้ามความหมายแบบตรวจสอบความหมาย
- ตัวชี้วัด: ความแม่นยำและ AUROC: การจำแนกประเภท QA และ QA แบบเปิดโดเมน
- ชุดข้อมูล: การค้นหาจำนวนมากและวุฒิสมาชิกจากภาพหลอนหิมะสโนว์บอล, Hotpotqa และ NQ-Open QA
การกำจัดน้ำหนักยืดหยุ่นสำหรับการเจรจาการสนทนาที่ซื่อสัตย์และเป็นนามธรรม
- ตัวชี้วัด: ความซื่อสัตย์ระหว่างการตอบสนองที่คาดการณ์ไว้และความรู้พื้นฐาน (แท็บ 1)-นักวิจารณ์, Q², Bert F1, F1
- ชุดข้อมูล: Wizard-of-Wikipedia (WOW), ส่วนขยาย DSTC9 และ DSTC11 ของ MultiWoz 2.1, FaithDial-ชุดย่อย de-hallucinated ของ WOW
ไว้วางใจหลักฐานของคุณ: ภาพหลอนน้อยลงด้วยการถอดรหัสบริบท
- ตัวชี้วัด: ความสอดคล้องตามข้อเท็จจริงของบทสรุป: Bert-Precision และ FactKb Memotrap และ NQ-Swap: การจับคู่ที่แน่นอน
- ชุดข้อมูล: การสรุป: CNN-DM, XSUM ความขัดแย้งความขัดแย้ง: memotrap, nq-swap
เมื่อไม่เชื่อถือแบบจำลองภาษา: การตรวจสอบประสิทธิภาพของความทรงจำแบบพารามิเตอร์และไม่ใช่พารามิเตอร์
- ตัวชี้วัด: การจับคู่/ความแม่นยำที่แน่นอน
- ชุดข้อมูล: ชุดข้อมูล QA ที่มีเอนทิตีหางยาว: POPQA, EntityQuestions; NQ
การเพิ่มการดึงช่วยลดภาพหลอนในการสนทนา
- ตัวชี้วัด: Generation: Perplexity, Unigram ทับซ้อน (F1), Bleu-4, Rouge-L ทับซ้อนกันระหว่างรุ่นและความรู้ที่มนุษย์มีพื้นฐานในระหว่างการรวบรวมชุดข้อมูล: ความรู้ F1; พิจารณาเฉพาะคำที่ไม่บ่อยนักในชุดข้อมูลเมื่อคำนวณ F1: หายาก F1
- ชุดข้อมูล: ว้าวเอกสารการสนทนาที่มีสายดิน (CMU_DOG) แหล่งความรู้: Dump Wikipedia Kilt
เพียงแค่ขอการสอบเทียบ: กลยุทธ์สำหรับการปรับคะแนนความเชื่อมั่นที่ปรับเทียบจากแบบจำลองภาษาที่ปรับด้วยความคิดเห็นของมนุษย์
- ตัวชี้วัด: ข้อผิดพลาดในการสอบเทียบที่คาดหวัง (ECE) ที่มีการปรับขนาดอุณหภูมิ (ECE-T); ความแม่นยำ@ความครอบคลุมและความครอบคลุม@ความแม่นยำ
- ชุดข้อมูล: ชุดข้อมูลตอบคำถามการประเมินความรู้จริง: Triviaqa, SCIQ, Truthfulqa
รูปแบบของภาพหลอนของภาษาสามารถเป็นก้อนหิมะได้อย่างไร
- ตัวชี้วัด: เปอร์เซ็นต์ของคำตอบที่ไม่ถูกต้อง (ภาพหลอน) และกรณีที่ "โมเดลรู้ว่ามันผิด" (ภาพหลอนหิมะ)
- ชุดข้อมูล: การทดสอบเบื้องต้น, การค้นหาวุฒิสมาชิก, การเชื่อมต่อกราฟ
การปรับปรุงแบบจำลองภาษาด้วยการไล่ระดับสีแบบออฟไลน์ตามความได้เปรียบ
- ตัวชี้วัด: การประเมินความซื่อสัตย์สำหรับการสร้างการตอบสนองต่อความรู้เกี่ยวกับศรัทธา-ศรัทธา, COLA (ความคล่องแคล่ว), การมีส่วนร่วมในการสนทนา, ความหลากหลายของ TF-IDF ที่มีความยาว
- ชุดข้อมูล: กล่องโต้ตอบที่มีความรู้ที่ซื่อสัตย์: ศรัทธาเดลชุดย่อยที่ซื่อสัตย์มากขึ้นของ WOW
การสร้างด้วยความมั่นใจ: ปริมาณความไม่แน่นอนสำหรับโมเดลภาษาขนาดใหญ่กล่องดำ
- ตัวชี้วัด: Auroc, Auarc, ความไม่แน่นอนและตัวชี้วัดความมั่นใจ (Numset, DEG, EIGV)
- ชุดข้อมูล: COQA (ชุดข้อมูล QA การสนทนาแบบเปิดหนังสือ), Triviaqa และคำถามธรรมชาติ (QA ปิดหนังสือ)
ความเป็นไปได้ตามลำดับบริบท: คะแนนความมั่นใจที่เพิ่มขึ้นสำหรับการสร้างภาษาธรรมชาติ
- ตัวชี้วัด: Auroc, Auarc; ความน่าจะเป็นลำดับที่ดีขึ้น (ความน่าจะเป็นบันทึกของลำดับที่สร้างขึ้น) ใช้ในการคำนวณความมั่นใจหรือความไม่แน่นอน
- ชุดข้อมูล: COQA (ชุดข้อมูล QA การสนทนาแบบเปิดหนังสือ), Triviaqa และคำถามธรรมชาติ (QA ปิดหนังสือ)
FaithDial: มาตรฐานที่ซื่อสัตย์สำหรับการสนทนาการค้นหาข้อมูล
- ตัวชี้วัด: การวัดวัดระดับของภาพหลอนของการตอบสนองที่สร้างขึ้น WRT กับความรู้ที่ได้รับหรือทับซ้อนกับการตอบสนองที่ซื่อสัตย์ทองคำ: นักวิจารณ์, Q² (F1, NLI), Bertscore, F1, Bleu, Rouge
- ชุดข้อมูล: ศรัทธา, ว้าว
Neural Path Hunter: ลดภาพหลอนในระบบการสนทนาผ่านทางสายดิน
- ตัวชี้วัด: Feqa, ตัวชี้วัดความซื่อสัตย์; นักวิจารณ์นักวิจารณ์ภาพหลอน; Bleu
- ชุดข้อมูล: OpendialKG ชุดข้อมูลที่ให้การตอบสนองการสนทนาแบบปลายเปิดบนเส้นทางจากกิโลกรัม
Halueval: มาตรฐานการประเมินภาพหลอนขนาดใหญ่
- ตัวชี้วัด: ความแม่นยำ: QA, บทสนทนา, การสรุป
- ชุดข้อมูล: Halueval คอลเลกชันของตัวอย่างภาพหลอนที่สร้างขึ้นและเกี่ยวกับมนุษย์สำหรับการประเมินประสิทธิภาพของ LLM ในการรับรู้ภาพหลอน
ภาพหลอนความขัดแย้งตนเองของแบบจำลองภาษาขนาดใหญ่: การประเมินผลการตรวจจับและการบรรเทา
- ตัวชี้วัด: หลังจากสร้างคู่ประโยคมันจะวัดความแม่นยำการเรียกคืนและคะแนน F1 ในงานตรวจจับ
- ชุดข้อมูล: 12 หัวข้อที่เลือกจาก Wikipedia
บรรเทาภาพหลอนแบบจำลองภาษาด้วยการจัดตำแหน่งคำถามแบบโต้ตอบ
- ตัวชี้วัด: ความครอบคลุม : ตัวชี้วัดไบนารีที่กำหนดว่าค่าคำตอบทองที่ถูกต้องทั้งหมดจะรวมอยู่ในค่าที่สร้างขึ้นหรือไม่ ภาพหลอน : ตัวบ่งชี้ไบนารีที่ประเมินการมีอยู่ของค่าที่สร้างขึ้นซึ่งไม่ได้มีอยู่ในค่าคำถามและค่าพื้นฐานทองคำ เครื่องจำลองผู้ใช้ : เครื่องจำลองผู้ใช้เป็นรูปแบบภาษา "Oracle" พร้อมการเข้าถึงข้อมูลที่มาเกี่ยวกับคำตอบเป้าหมาย
- ชุดข้อมูล: Fuzzyqa ชุดข้อมูลที่ใช้ HybridDialogue และ Musique ซึ่งคำถามที่ซับซ้อนนั้นง่ายขึ้นโดยใช้ CHATGPT
ตรวจสอบข้อเท็จจริงของคุณและลองอีกครั้ง: ปรับปรุงรูปแบบภาษาขนาดใหญ่ด้วยความรู้ภายนอกและข้อเสนอแนะอัตโนมัติ
- ตัวชี้วัด: KF1, Bleu, Rouge, CHRF, Meteor, Bertscore, Bartscore, Bleurt, ความยาว AVG
- ชุดข้อมูล: ข่าวแชท: DSTC7 Track 2 ถูก repurposed เป็นคลังการประเมินผลสำหรับการสนทนาข่าว การบริการลูกค้า: ใช้ DSTC11 Track 5 เป็นงานแสดงในสถานการณ์การบริการลูกค้าการสนทนาการขยายตัวเมื่อ DSTC9 Track 1 โดยรวมข้อมูลอัตนัย
SelfCheckGpt: การตรวจจับภาพหลอนกล่องดำที่เป็นศูนย์สำหรับโมเดลภาษาขนาดใหญ่ที่เกิดจากการกำเนิด
- ตัวชี้วัด: การตรวจจับภาพหลอนระดับประโยค (AUC-PR) และการตรวจจับภาพหลอนระดับทาง (ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันและสเปียร์แมน)
- ชุดข้อมูล: บทความ Wikipedia ที่สร้างขึ้นจาก WikiBio พร้อมภาพหลอนที่มีคำอธิบายประกอบ
สถานะภายในของ LLM รู้เมื่อมันโกหก
- ตัวชี้วัด: ความแม่นยำต่อหัวข้อและค่าเฉลี่ย
- ชุดข้อมูล: ชุดข้อมูลที่แท้จริงของ False มีข้อความจริงและเท็จครอบคลุมหลายหัวข้อ-เมืองสิ่งประดิษฐ์องค์ประกอบทางเคมีสัตว์ บริษัท และข้อเท็จจริงทางวิทยาศาสตร์
ห่วงโซ่แห่งความรู้: กรอบสำหรับการสร้างแบบจำลองภาษาขนาดใหญ่ที่มีฐานความรู้ที่มีโครงสร้าง
- ตัวชี้วัด: การจับคู่ที่แน่นอน
- ชุดข้อมูล: ไข้, hotpotqa ที่เป็นปฏิปักษ์
Halo: การประมาณและการลดภาพหลอนในรูปแบบภาษาขนาดใหญ่ที่อ่อนแอของโอเพนซอร์ส
- ตัวชี้วัด: คะแนน Halocheck และ SelfcheckGpt; ความสอดคล้องความเป็นจริง
- ชุดข้อมูล: สร้างและตรวจสอบคำถามในโดเมน NBA
ตะเข็บในเวลาบันทึกเก้า: การตรวจจับและบรรเทาภาพหลอนของ LLMS โดยการตรวจสอบการสร้างความมั่นใจต่ำ
- ตัวชี้วัด: ความแม่นยำและการเรียกคืนเมื่อตรวจจับภาพหลอนระดับประโยคและระดับแนวคิด
- ชุดข้อมูล: ย่อหน้าที่สร้างขึ้นโดย CHATGPT ซึ่งครอบคลุม 150 หัวข้อจากโดเมนที่หลากหลาย
แหล่งที่มาของภาพหลอนโดยแบบจำลองภาษาขนาดใหญ่ในงานการอนุมาน
- ตัวชี้วัด: ความแม่นยำในการเรียกเก็บเงิน/โฮลท์และการเรียกคืนด้วยการแทรกเอนทิตีและการเปลี่ยน
- ชุดข้อมูล: ชุดข้อมูล Levy/Holt ที่มีคู่ของ Premise-Hypothesis พร้อมกับงานที่จัดรูปแบบตามที่ กำหนด [premise P] มันเป็นความจริงหรือไม่ว่า [สมมติฐาน H]? ที่ประเมินแบบจำลองด้วยสถานที่สุ่ม
ภาพหลอนในรูปแบบการแปลหลายภาษาขนาดใหญ่
- ตัวชี้วัด: อัตราที่ระบบ MT ผลิตภาพหลอนภายใต้การก่อกวน (เศษส่วนภาษาคู่อัตรา)
- ชุดข้อมูล: FLORES-101, WMT, TICO
การอ้างอิง: กุญแจสำคัญในการสร้างแบบจำลองภาษาขนาดใหญ่ที่รับผิดชอบและรับผิดชอบได้
- ตัวชี้วัด: N/A
- ชุดข้อมูล: N/A
การป้องกันภาพหลอม
- ตัวชี้วัด: การจัดหมวดหมู่การสอนประสาทหลอน: AUC, ACC, F1, PEA
- ชุดข้อมูล: Concept-7 ซึ่งมุ่งเน้นไปที่การจำแนกคำแนะนำประสาทหลอนที่อาจเกิดขึ้น
RARR: การค้นคว้าและแก้ไขโมเดลภาษาพูดโดยใช้แบบจำลองภาษา
- ตัวชี้วัด: เป็นผลมาจากคะแนนแหล่งที่มา (AIS) ก่อนและหลังการแก้ไข
- ชุดข้อมูล: คำสั่งที่สร้างขึ้นโดยการสร้างอินพุตงานจากชุดข้อมูลสามชุดและกระตุ้นให้โมเดลที่แตกต่างกันเพื่อสร้างเอาต์พุตแบบยาวซึ่งอาจมีภาพหลอน-คำสั่ง factoid, โซ่การให้เหตุผลและบทสนทนาที่ใช้ความรู้มาก
Q²: การประเมินความสม่ำเสมอในข้อเท็จจริงในบทสนทนาที่มีความรู้ผ่านการสร้างคำถามและการตอบคำถาม
- ตัวชี้วัด: Q²เป็นตัวชี้วัดและเปรียบเทียบกับการซ้อนทับระดับโทเค็น F1, ความแม่นยำและการเรียกคืน, q² w/o nli, e2e nli, ซ้อนทับ, bertscore และ bleu
- ชุดข้อมูล: ว้าวซึ่งมีบทสนทนาที่บอทต้องการตอบสนองต่ออินพุตของผู้ใช้ในวิธีที่มีความรู้ Topical-Chat ชุดข้อมูลการสนทนาที่มีความรู้เกี่ยวกับมนุษย์มนุษย์ Dialogue NLI ชุดข้อมูลตามงานบทสนทนา Persona-Chat ซึ่งประกอบด้วยคู่ Premise-Hypothesis
เรารู้ไหมว่าเราไม่รู้อะไร? ศึกษาคำถามที่ไม่สามารถตอบได้นอกเหนือจาก Squad 2.0
- Metrics: em on All, "Have Aswer" และ "Idk"
- ชุดข้อมูล: MNLI, Squad 2.0, Ace-Whqa
โซ่แห่งการตรวจสอบช่วยลดภาพหลอนในรูปแบบภาษาขนาดใหญ่
- ตัวชี้วัด: รายการ Wikidata และ Wiki หมวดหมู่: การทดสอบความแม่นยำ, จำนวนเฉลี่ยของเอนทิตีบวกและลบ (ภาพหลอน) สำหรับคำถามที่อิงตามรายการ; Multispanqa: F1, ความแม่นยำ, การเรียกคืน; การสร้างชีวประวัติรุ่นยาว: FactScore
- ชุดข้อมูล: Wikidata, Wiki-category List, Multispanqa, Biographies รุ่นยาว
การตรวจจับและบรรเทาภาพหลอนในการสรุปหลายภาษา
- ตัวชี้วัด: Mfact, ตัวชี้วัดที่ซื่อสัตย์หลายภาษาที่ได้รับการพัฒนาจากตัวชี้วัดความซื่อสัตย์ภาษาอังกฤษสี่ตัว: Dae, Qafacteval, ENFS%และ ENTFA
- ชุดข้อมูล: XL-Sum, ชุดข้อมูลการสรุปหลายภาษา
ภาพหลอน แต่เป็นข้อเท็จจริง! การตรวจสอบความเป็นจริงของภาพหลอนในการสรุปเชิงนามธรรม
- ตัวชี้วัด: Xent: ภาพหลอน (ความแม่นยำ, F1), ข้อเท็จจริง (ความแม่นยำ, F1), Rouge, % ของนวนิยาย N-Gram, ความซื่อสัตย์ ( % ENFS, Feqa, DAE), ENTFA ( % ข้อเท็จจริง
- ชุดข้อมูล: ชุดข้อมูลใหม่, Xent, สำหรับการวิเคราะห์ภาพหลอนเอนทิตีและข้อเท็จจริงในการสรุปเชิงนามธรรมประกอบด้วย 800 สรุปที่สร้างโดย BART และคำอธิบายประกอบ Ment ชุดของคำอธิบายประกอบข้อเท็จจริงและภาพหลอนสำหรับ XSUM
- ความคิดเห็น: แท็บ 2 สรุปภาพหลอนหลายประเภท (เช่นข้อเท็จจริง, ไม่เป็นจริง, ภายใน, ที่แท้จริง)
การเปิดใช้งานโมเดลภาษาขนาดใหญ่ในการสร้างข้อความด้วยการอ้างอิง
- ตัวชี้วัด: ความคล่องแคล่ว (MAUVE), ความถูกต้อง (การเรียกคืน EM สำหรับ ASQA, การเรียกคืน -5 สำหรับ Qampari, เรียกร้องการเรียกคืนสำหรับ Eli5), คุณภาพการอ้างอิง (การเรียกคืนการอ้างอิง, ความแม่นยำการอ้างอิง)
- ชุดข้อมูล: ชุดข้อมูล QA เช่น 1) พวกเขามีคำถามจริงที่การอ้างอิงมีความสำคัญ 2) คำถามต้องใช้คำตอบข้อความยาวครอบคลุมหลายด้านและ 3) การตอบคำถามต้องมีการสังเคราะห์หลายแหล่ง: ASQA, Qampari, Eli5
มาตรฐานการตรวจจับภาพหลอนอ้างอิงระดับโทเค็นสำหรับการสร้างข้อความแบบฟรีฟอร์ม
- ตัวชี้วัด: ACC, G-Mean, BSS, AUC, ไม่ใช่ภาพหลอน (P, R, F1), ภาพหลอน (P, R, F1)
- ชุดข้อมูล: HADES (ชุดข้อมูลการตรวจจับภาพหลอน) ชุดข้อมูลการตรวจจับภาพหลอนที่มีระดับโทเค็นนวนิยายใหม่ที่ได้รับจากการก่อกวนส่วนข้อความจำนวนมากที่สกัดจากวิกิพีเดียภาษาอังกฤษและตรวจสอบด้วยคำอธิบายประกอบที่มาจากฝูงชน
- ความคิดเห็น: รูปที่ 3 แสดงภาพหลอนหลายประเภท (ความรู้เฉพาะโดเมน, ความรู้ทั่วไป, การเชื่อมโยงกันหรือการจัดระเบียบที่ไม่เหมาะสม, ไม่เกี่ยวข้องกับหัวข้อกลาง, ความขัดแย้งกับบริบทก่อนหน้า, ความขัดแย้งกับบริบทที่ประสบความสำเร็จ, .. )
การสร้างมาตรฐานสำหรับการประเมินความเป็นจริงของแบบจำลองภาษา
- ตัวชี้วัด: เปอร์เซ็นต์ของตัวอย่างที่กำหนดความน่าจะเป็นสูงสุดให้กับความสำเร็จตามข้อเท็จจริง
- ชุดข้อมูล: Wiki-factor และ News-factor: สองมาตรฐานการประเมินผลการประเมินความเป็นจริงสำหรับ LLMS ตาม Wikipedia และบทความข่าว แต่ละตัวอย่างประกอบด้วยคำนำหน้าความสำเร็จตามข้อเท็จจริงและทางเลือกที่คล้ายกัน แต่ไม่เป็นทางการสามทาง
- ความคิดเห็น: กระดาษแนะนำเฟรมเวิร์กสำหรับการสร้างชุดข้อมูลดังกล่าวโดยอัตโนมัติจากคลังข้อมูลที่กำหนดโดยมีรายละเอียดในส่วนที่ 3
แบบจำลองภาษารู้ว่าเมื่อใดที่พวกเขามีการอ้างอิงภาพหลอนหรือไม่?
- ตัวชี้วัด: อัตราการหลอน (H%จาก 1,000 ชื่อที่สร้างขึ้น)
- ชุดข้อมูล: การอ้างอิงที่สร้างขึ้น (จริงและภาพหลอน) ในหัวข้อจากระบบการจำแนกประเภทการคำนวณ ACM
ทำไม CHATGPT ถึงสั้นในการให้คำตอบที่เป็นจริง?
- ตัวชี้วัด: #CORRECT และ #WRONG คำตอบและประเภทของความล้มเหลวที่แตกต่างกัน: ความเข้าใจ, ความจริง, ความจำเพาะ, การอนุมาน
- ชุดข้อมูล: HOTPOTQA, BOOLQ
- ความคิดเห็น: สิ่งนี้มีอนุกรมวิธานที่ดีเกี่ยวกับประเภทข้อผิดพลาดที่แตกต่างกัน - เช่น ความเข้าใจ ความจริง ข้อเท็จจริงการ ระบุการอนุมาน
LM vs LM: การตรวจหาข้อผิดพลาดจริงผ่านการตรวจสอบข้าม
- ตัวชี้วัด: ความแม่นยำ, การเรียกคืน, F1 (ภายใต้กลยุทธ์การตรวจสอบข้ามที่แตกต่างกัน: AYS, IDK, อิงตามความเชื่อมั่น, IC-IDK)
- ชุดข้อมูล: Triviaqa, NQ, POPQA
Rho (ρ): ลดภาพหลอนในบทสนทนาแบบเปิดโดเมนด้วยความรู้พื้นฐาน
- ตัวชี้วัด: Bleu, Rouge-L; Feqa, Questeval, EntityCoverage (ความแม่นยำ, การเรียกคืน, F1) เพื่อประเมินระดับภาพหลอน-FRQA และ Questeval เป็นตัวชี้วัดที่ใช้ QA สำหรับการประเมินความซื่อสัตย์ของผลลัพธ์ในงานสร้าง
- ชุดข้อมูล: OpendialKG
FACTSCORE: การประเมินอะตอมที่ละเอียดของความแม่นยำจริงในการสร้างข้อความแบบยาว
- ตัวชี้วัด: %ที่สนับสนุนข้อความในระดับความถี่ที่แตกต่างกันของหน่วยงานของมนุษย์
- ชุดข้อมูล: ชีวประวัติของผู้คนที่สร้างขึ้นจาก LLMS ซึ่งผู้ใส่คำอธิบายต่าง ๆ ของมนุษย์แบ่งพวกเขาออกเป็นข้อเท็จจริงสนับสนุน
ExpertQa: คำถามที่ได้รับการดูแลจากผู้เชี่ยวชาญและคำตอบที่นำมาใช้
- ตัวชี้วัด: Zero-shot (P, R, F1) และปรับแต่ง (P, R, F1) ของป้ายกำกับอัตโนมัติ; คะแนน FACTSCORE F1 บนฉลากการอ้างอิงข้อเท็จจริง; AutoAis (เป็นสาเหตุของแหล่งที่มาที่ระบุ)
- ชุดข้อมูล: คำถามที่ได้รับการดูแลจากผู้เชี่ยวชาญในหลายสาขา (เช่นมานุษยวิทยา, สถาปัตยกรรม, ชีววิทยา, เคมี, วิศวกรรมและเทคโนโลยี, การดูแลสุขภาพ/การแพทย์; ดูแท็บ 1 สำหรับตัวอย่าง) จัดเรียงตามประเภทคำถาม (เช่นคำถามกำกับด้วยคำตอบที่ไม่ชัดเจน
Dola: การถอดรหัสโดยเลเยอร์ที่ตัดกันช่วยเพิ่มความเป็นจริงในรูปแบบภาษาขนาดใหญ่
- ตัวชี้วัด: Truthffulqa: MC1, MC2, คะแนน MC3; ปัจจัย: ข่าว, วิกิ; เหล่านี้เป็นผลลัพธ์แบบปรนัย รุ่นปลายเปิด: สำหรับความจริงแล้วพวกเขาใช้ความจริง %, ข้อมูล %, %ความจริง*ข้อมูล, %ปฏิเสธ; สำหรับงาน COT (กลยุทธ์ QA และ GSM8K) พวกเขาไปอย่างแม่นยำ
- ชุดข้อมูล: Truthfulqa, Factor (News/wiki), StrategyQa, GSM8K
Freshllms: สดชื่นแบบจำลองภาษาขนาดใหญ่พร้อมการเสริมเครื่องมือค้นหา
- ตัวชี้วัด: ความแม่นยำ (เข้มงวดผ่อนคลายสำหรับคำถามที่เปลี่ยนแปลงอย่างรวดเร็วคำถามที่เปลี่ยนแปลงช้าคำถามที่ไม่เคยเปลี่ยนแปลงคำถามที่ผิดพลาดเกี่ยวข้องกับความรู้ก่อนปี 2022 และตั้งแต่ปี 2565 คำถาม 1-HOP และหลายคำถามและโดยรวม)
- ชุดข้อมูล: FreshQa, เกณฑ์มาตรฐาน QA ใหม่ที่มี 600 คำถามที่ครอบคลุมคำถามและประเภทคำตอบที่หลากหลาย
นอกเหนือจากข้อเท็จจริง: การประเมินแบบจำลองภาษาขนาดใหญ่ที่ครอบคลุมเป็นเครื่องกำเนิดความรู้
- ตัวชี้วัด: ข้อเท็จจริง, ความเกี่ยวข้อง, การเชื่อมโยงกัน, ข้อมูล, ความช่วยเหลือและความถูกต้อง
- ชุดข้อมูล: คำถามธรรมชาติ, พ่อมดแห่งวิกิพีเดีย
การตรวจสอบการเรียกร้องที่ซับซ้อนพร้อมหลักฐานที่ดึงมาในป่า
- ตัวชี้วัด: ความแม่นยำ, แม่, แมโคร -F1, ความแม่นยำที่อ่อนนุ่ม
- ชุดข้อมูล: CilepDecomp ซึ่งมีการเรียกร้องที่ซับซ้อน 1200 รายการจาก Politifactl การเรียกร้องแต่ละครั้งจะมีป้ายกำกับด้วยหนึ่งในหกฉลากความจริงซึ่งเป็นวรรคเหตุผลที่เขียนโดยคาดว่าจะมีผู้ตรวจสอบข้อเท็จจริง
FELM: การเปรียบเทียบการประเมินความเป็นข้อเท็จจริงของแบบจำลองภาษาขนาดใหญ่
- ตัวชี้วัด: ความแม่นยำ, F1/ความแม่นยำ/การเรียกคืน
- ชุดข้อมูล: การใช้เหตุผล, คณิตศาสตร์, การเขียน/rec, วิทยาศาสตร์/เทคโนโลยี, ความรู้ระดับโลก: GSM8K, chatgpt, คณิตศาสตร์, Truthfulqa, Quora, MMLU/HC3
การประเมินภาพหลอนในรูปแบบภาษาขนาดใหญ่ของจีน
- ตัวชี้วัด: การประเมิน Humand และ GPT-4
- ชุดข้อมูล: Halluqa (ซึ่งพวกเขาเสนอ) และพูดถึง Trustfulqa, Chinesefacteval, Halueval
เกี่ยวกับความซื่อสัตย์และข้อเท็จจริงในการสรุปนามธรรม
- ตัวชี้วัด: Rouge, Bertscore; การประเมินของมนุษย์ (ระบุช่วงประสาทหลอนและไม่ว่าจะเป็นที่อยู่ภายในหรือภายนอก) - ภาพหลอนภายใน เป็นการจัดการข้อมูลในเอกสารอินพุตในขณะที่ ภาพหลอนภายนอก เป็นข้อมูลที่ไม่สามารถอนุมานได้โดยตรงจากเอกสารอินพุต มนุษย์ถูกขอให้ใส่คำอธิบายประกอบภาพหลอนภายในและภายนอก
- ชุดข้อมูล: Xsum
Questeval: การสรุปขอการประเมินตามข้อเท็จจริง
- ตัวชี้วัด: Questeval (เสนอในงานนี้) สำหรับการทดสอบเพื่อ ความสอดคล้อง การเชื่อมโยง ความคล่องแคล่ว และ ความเกี่ยวข้อง Rouge, Blue, Meteor, Bertscore Summaqa, Qags
- ชุดข้อมูล: Summeval, Qags-Xsum, Squad-V2
QAFACTEVAL: ปรับปรุงการประเมินความสอดคล้องตามข้อเท็จจริงที่ใช้ QA สำหรับการสรุป
- ตัวชี้วัด: QAFACTEVAL (เสนอในงานนี้) การวัดการเลือกคำตอบการสร้างคำถามการตอบคำถามคำตอบการทับซ้อนและการกรอง/การตอบรับ
- ชุดข้อมูล: SUMMAC คอลเลกชันของเกณฑ์มาตรฐานสำหรับการประเมินความสอดคล้องแบบไบนารี CGS, ประโยคที่ถูกต้องและไม่ถูกต้องจาก CNN/DailyMail; XSF; polytope; factcc; Summeval; แฟรงค์; Qags
การตรวจจับความไม่สอดคล้องกันอย่างรวดเร็วและแม่นยำในเอกสารยาว
- ตัวชี้วัด: สเกล (ตัวชี้วัดใหม่ที่เสนอในงานนี้) เมื่อเทียบกับQ², Anli, Summac, F1, Bleurt, Questeval, Bartscore, Bertscore (ตารางที่ 3)
- ชุดข้อมูล: เกณฑ์มาตรฐานจริงและหน้าจอชุดข้อมูลใหม่ที่เสนอในงานนี้เพื่อประเมินความไม่สอดคล้องกันจริงในบทสนทนาแบบยาว (เอกสาร 52 เอกสารจาก Summscreen)
การทำความเข้าใจกับข้อเท็จจริงในการสรุปนามธรรมกับ Frank: มาตรฐานสำหรับตัวชี้วัดความเป็นจริง
- ตัวชี้วัด: Bertscore, Feqa, QGFS, DAE, FactCC
- ชุดข้อมูล: เสนอชุดข้อมูลใหม่ Frank: ข้อผิดพลาดข้อเท็จจริงเกี่ยวกับข้อเท็จจริงของมนุษย์สำหรับชุดข้อมูล CNN/DM และ XSUM
จริง: ประเมินการประเมินความสอดคล้องตามข้อเท็จจริงอีกครั้ง
- ตัวชี้วัด: Q², Anli, Summac, Bleurt, Questeval, FactCC, Bartscore, Bertscore
- ชุดข้อมูล: การรวมชุดข้อมูลของมนุษย์ที่แตกต่างกัน 11 ชุดสำหรับความสอดคล้อง fctual
กรณีที่อยากรู้อยากเห็นของภาพหลอน (UN) การตอบรับ: การค้นหาความจริงในสถานะที่ซ่อนอยู่ของแบบจำลองภาษาขนาดใหญ่ที่มีความมั่นใจมากเกินไป
- ตัวชี้วัด: (การจำแนกประเภท) F-1, การจับคู่ที่แน่นอน, (โทเค็น) F-1
- ชุดข้อมูล: ทีมคำถามธรรมชาติ Musique
- ความคิดเห็น: โมเดลบทความนี้สำรวจการจัดการของ LLMS ของ (UN) คำถามที่ตอบได้ในการตั้งค่าหนังสือปิดคือการตอบคำถามตามข้อความที่กำหนดซึ่งข้อความไม่มีคำตอบ กระดาษแสดงให้เห็นว่าแม้จะมีแนวโน้มของ LLMs ในการตอบสนองต่อบริบทของภาพหลอนแทนที่จะระบุว่าพวกเขาไม่สามารถตอบคำถามได้ แต่พวกเขาก็มีความเข้าใจภายในเกี่ยวกับความสามารถในการตอบคำถาม (UN)
Androids รู้ไหมว่าพวกเขากำลังฝันถึงแกะไฟฟ้าเท่านั้น?
- ตัวชี้วัด: (การตรวจจับภาพหลอน) ระดับการตอบสนอง F1, การจับคู่เครดิตบางส่วนในระดับ F1
- ชุดข้อมูล: CNN Dailymail, convfever และ E2E ที่สร้างขึ้นอย่างเป็นทางการ
- ความคิดเห็น: โมเดลภาษารู้ว่าเมื่อใดที่เป็นภาพหลอนและเราสามารถฝึกอบรมโพรบใน LLM ที่ซ่อนอยู่ระหว่างการถอดรหัสเพื่อตรวจจับได้อย่างน่าเชื่อถือ
การแก้ไขด้วยการย้อนรอยช่วยลดภาพหลอนในการสรุป
- ตัวชี้วัด: alignscore, factcc, bs-fact, rouge-l
- ชุดข้อมูล: CNN/DM, XSUM, ห้องข่าว
การตรวจจับภาพหลอนอย่างละเอียดและการแก้ไขสำหรับแบบจำลองภาษา
- ตัวชี้วัด: ความแม่นยำ, เรียกคืน, f1
- ชุดข้อมูล: ชุดข้อมูลการตรวจจับภาพหลอน/การแก้ไขที่กำหนดเองแบบกำหนดเองได้สำหรับภาพหลอน (ข้อเท็จจริง) ประเภทต่าง ๆ : เอนทิตี, ความสัมพันธ์, ขัดแย้ง, คิดค้น, คิดค้น, อัตนัย, ไม่สามารถพิสูจน์ได้
LLMS เป็นเหตุผลที่เป็นข้อเท็จจริง: ข้อมูลเชิงลึกจากมาตรฐานที่มีอยู่และอื่น ๆ
- ตัวชี้วัด: ความแม่นยำสำหรับประเภทข้อผิดพลาดต่าง ๆ - ตัวอย่างบวก, การแลกเปลี่ยนวันที่, การแลกเปลี่ยนเอนทิตี, ประโยคที่ไม่ลงรอยกัน, การแลกเปลี่ยนตัวเลข, การแลกเปลี่ยนคำสรรพนาม
- ชุดข้อมูล: พวกเขาเสนอผลรวมเป็นมาตรฐานการตรวจจับความไม่สอดคล้องกัน 10 โดเมน
การประเมินความสอดคล้องตามข้อเท็จจริงของการสรุปข้อความเชิงนามธรรม
- ตัวชี้วัด: พวกเขาเสนอ FACTCC ซึ่งเป็นตัวชี้วัดที่วัดความสอดคล้องตามข้อเท็จจริงของการสรุปข้อความเชิงนามธรรม (สัญชาตญาณ: บทสรุปมีความสอดคล้องกันจริงหากมีข้อเท็จจริงเช่นเดียวกับเอกสารต้นฉบับ)
- ชุดข้อมูล: CNN/DM สำหรับการสร้างข้อมูลการฝึกอบรม; MNLI และไข้สำหรับรูปแบบการฝึกอบรม การทดลองตามมนุษย์สำหรับการประเมินผลการเรียกร้องเกี่ยวกับบทความ CNN/DM
SUMMAC: การเยี่ยมชมแบบจำลองที่ใช้ NLI ใหม่สำหรับการตรวจจับความไม่สอดคล้องกันในการสรุป
- ตัวชี้วัด: ชุดข้อมูลแต่ละชุดมาพร้อมกับตัวชี้วัด (เช่น Cogensumm ใช้มาตรการที่ใช้การเปลี่ยนใหม่ Xsumfaith, Summeval และ Frank เสนอตัวชี้วัดหลายอย่างและวิเคราะห์ว่าพวกเขามีความสัมพันธ์กับคำอธิบายประกอบของมนุษย์อย่างไร
- ชุดข้อมูล: พวกเขาเสนอ Summac (สรุปความสอดคล้อง), เกณฑ์มาตรฐานที่ประกอบด้วยชุดข้อมูลการตรวจจับความไม่สอดคล้องกันขนาดใหญ่หกชุด: Cogensumm, Xsumfaith, Polytope, FactCC, Summeval และ Frank
ต้นกำเนิดของภาพหลอนในแบบจำลองการสนทนา: เป็นชุดข้อมูลหรือโมเดลหรือไม่?
- ตัวชี้วัด: คำอธิบายประกอบจากผู้เชี่ยวชาญและไม่ใช่ผู้เชี่ยวชาญ: ภาพหลอนบางส่วน, entailment, ภาพหลอน, uncoop, generic (แต่ละหมวดหมู่เหล่านี้มีคลาสย่อยที่ดีกว่า-ดูเช่นรูปที่ 2)-คำอธิบายประกอบเป็นไปตาม Taxonomies เริ่มต้นและ VRM
- ชุดข้อมูล: เกณฑ์มาตรฐานการสนทนาที่มีความรู้: Wizard of Wikipedia (ว้าว), CMU-DOG และ TopicalChat-ชุดข้อมูลที่ประกอบด้วยบทสนทนาระหว่างผู้พูดสองคนซึ่งเป้าหมายคือการสื่อสารข้อมูลเกี่ยวกับหัวข้อเฉพาะ
การสอนแบบจำลองภาษาให้กับภาพหลอนน้อยลงด้วยงานสังเคราะห์
- ตัวชี้วัด: อัตราการเกิดภาพหลอนในการตั้งค่าหลายครั้ง (ต้นฉบับพร้อมข้อความระบบที่ได้รับการปรับปรุงด้วยน้ำหนัก LLM เต็มรูปแบบพร้อมข้อมูลสังเคราะห์หรือส่วนผสมของข้อมูลสังเคราะห์และข้อมูลอ้างอิง); Bleu, Rouge-1, Rouge-2, Rouge-L
- ชุดข้อมูล: การค้นหาและทดสอบ (MS Marco), การสรุปการประชุม (QMSUM), การสร้างรายงานทางคลินิกอัตโนมัติ (ACI-bench)
กลยุทธ์การถอดรหัสที่มีความซื่อสัตย์เพื่อรับรู้การสรุปเชิงนามธรรม
- ตัวชี้วัด: Rouge-L, Bertscore, BS-Fact, FactCC, DAE, Questeval
- ชุดข้อมูล: CNN/DM, XSUM
การสุ่มตัวอย่างอุณหภูมิของ KL-Divergence
- ตัวชี้วัด: การสนทนา QA: โมเดลปรับแต่งอย่างละเอียดเกี่ยวกับ MNLI, SNLI, ไข้, อุ้งเท้า, sctail และ Vitaminc การสรุป: โมเดลปรับแต่งบน Anli และ Xnli
- ชุดข้อมูล: คำถามการเขียนใหม่ในบริบทการสนทนา (QRECC), XLSUM
การตรวจสอบภาพหลอนในแบบจำลองภาษาขนาดใหญ่ที่ตัดแต่งเพื่อการสรุปเชิงนามธรรม
- ตัวชี้วัด: ตัวชี้วัดความเสี่ยงของภาพหลอน (HARIM+), SUMMAC, SUMMACZS, SUMMACCONV, อัตราส่วนความเสี่ยงของภาพหลอน (HRR)
- ชุดข้อมูล: FactCC, Polytope, Summeval, สัญญาทางกฎหมาย, RCT
ความรู้ตามความรู้ตามนิติบุคคลในการตอบคำถาม
- ตัวชี้วัด: EM, อัตราส่วนการจดจำ
- ชุดข้อมูล: NQ Dev พร้อมคำตอบทับซ้อน (AO) และไม่มีคำตอบที่ทับซ้อนกัน (NAO), NewsQa
TruthX: การบรรเทาภาพหลอนโดยการแก้ไขแบบจำลองภาษาขนาดใหญ่ในพื้นที่จริง
- ตัวชี้วัด: คะแนน MC1/MC2/MC3 สำหรับงานหลายทางเลือก TruthFfulQa; %ความจริง, ข้อมูล %, %ความจริง*ข้อมูลสำหรับงาน TURTFFULQA Open-Ende Generation; ความแม่นยำทางเลือกสำหรับคำถามธรรมชาติ Triviaqa และปัจจัย (ข่าว, ผู้เชี่ยวชาญ, วิกิ)
- ชุดข้อมูล: Trustfulqa, คำถามธรรมชาติ, Triviaqa, ปัจจัย (ข่าว, ผู้เชี่ยวชาญ, wiki)
คำถามการสลายตัวช่วยเพิ่มความซื่อสัตย์ของการใช้เหตุผลที่สร้างขึ้นจากแบบจำลอง
- ตัวชี้วัด: ความถูกต้อง, ความไวต่อการตัดทอนคำตอบสุดท้าย, คำตอบสุดท้ายความไวการทุจริต, การเปลี่ยนแปลงความแม่นยำของบริบทลำเอียง
- ชุดข้อมูล: HOTPOTQA, OpenBookqa, StrategyQa, Truthfulqa
ภาพหลอนความขัดแย้งตนเองของแบบจำลองภาษาขนาดใหญ่: การประเมินผลการตรวจจับและการบรรเทา
- ตัวชี้วัด: สำหรับการตรวจจับ: ความแม่นยำ, เรียกคืน, f1 สำหรับการบรรเทาผลกระทบ: อัตราส่วนของการลบล้างตนเองออก, อัตราส่วนของข้อเท็จจริงที่ให้ข้อมูลยังคงอยู่, ความงุนงงเพิ่มขึ้น
- ชุดข้อมูล: ชุดข้อมูลการสร้างข้อความแบบเปิดโดเมนแบบกำหนดเอง, คำอธิบายข้อความสารานุกรมที่สร้างขึ้น LLM ที่สร้างขึ้น LLM สำหรับเอนทิตี Wikipedia, Popqa
การตรวจจับภาพหลอนในรูปแบบภาษาขนาดใหญ่โดยใช้ความหมายเอนโทรปี
- ตัวชี้วัด: สำหรับการตรวจจับ: Auroc, Aurac
- ชุดข้อมูล: QA: Triviaqa, Squad, BioAsq, NQ-Open, Svamp FACTUALBIO ชุดข้อมูลการสร้างชีวประวัติมาพร้อมกับบทความนี้
Cast: การทดสอบความคล้ายคลึงกันของการจัดตำแหน่งข้ามโมดอลสำหรับแบบจำลองภาษาวิสัยทัศน์
- ตัวชี้วัด: เสนอตัวชี้วัดที่สอดคล้องกันอย่างง่ายซึ่งพยายามประเมินว่าแบบจำลองหลายรูปแบบมีความสอดคล้องกันในรังสีหรือไม่ สิ่งนี้ใช้งานได้ในสองขั้นตอนในขั้นตอนแรกโมเดลสร้างความคล้ายคลึงกัน/ข้อความจริงเปรียบเทียบสองอินพุตและในขั้นตอนที่สองโมเดลตัดสินผลลัพธ์ของตัวเองเพื่อความจริง แบบจำลองที่สอดคล้องกันควรประเมินผลลัพธ์ของตัวเองเป็นจริงเสมอ
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.