令人敬畏的障礙檢測
引用此存儲庫
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
論文和摘要
通過基於SAE的表示工程,LLMS中的轉向知識選擇行為
- 指標:確切匹配
- 數據集: NQSWAP,MACNOISE
- 評論:使用稀疏自動編碼器(SAE)來增強上下文知識的使用情況的第一項工作。
火星:對生成LLM的不確定性估計的意義反應評分
- 指標: AUROC
- 數據集: Triviaqa,NaturalQA,WebQA
- 評論:稱為火星的LLM不確定性估計技術通過為代幣分配更大的權重來代替長度差異概率評分,從而更大程度地促進了正確性。
不要設計,學習:可訓練的評分功能,用於生成LLMS中的不確定性估計
- 指標: AUROC,PRR
- 數據集: Triviaqa,GSM8K,NaturalQA,WebQA
- 評論: LLM不確定性估計技術稱為LARS訓練基於編碼器的變壓器,該變壓器以查詢,生成和令牌概率為輸入,並將不確定性得分作為輸出返回
量化任何語言模型的答案的不確定性並增強其可信度
- 指標:準確性,精確/召回/AUROC
- 數據集: Triviaqa,GSM8K,SVAMP,常識QA
- 評論: LLM不確定性估計技術稱為BSDETECTOR,將自我反射確定性和觀察到的一致性結合在一起。以高精度/召回率檢測錯誤/幻覺的LLM響應,也可以自動提高LLM響應的準確性。
解次:通過對比的檢索頭來解碼以減輕幻覺
- 指標: MC1,MC2,MC3的真實性多項選擇任務; %真實,%信息,%真相*真實性開放式生成任務的信息;子跨QA任務(NQ-OPEN,NQ-SWAP,TRIVIAQA,POPQA,MUSICE)的亞ave精確匹配; MEMOTRAP的準確性; IFEVAL的及時級別和指令級的精度。
- 數據集:真實性,NQ-OPEN,NQ-SWAP,TRIVIAQA,POPQA,MEMOTRAP,IFEVAL,MUSICE
利用幻覺來減少手動及時依賴性的及時分段
- 指標: Mae,f_ {beta},s_ {alpha}
- 數據集:變色龍,迷彩,COD10K,CVC-COLONDB,KVASIR,ISIC
- 評論:第一項研究並不認為幻覺純粹是負面的,而是模型預訓練的一個常見方面。與以前的直接消除幻覺的方法不同,Promac首先刺激幻覺,以挖掘模型預訓練的先驗知識,以在圖像中收集與任務相關的信息。然後,它消除了無關的幻覺來減輕其負面影響。該方法的有效性已在多個具有挑戰性的細分任務中得到證明。
GrapheVal:基於知識圖的LLM幻覺評估框架
- 指標:準確性(檢測),胭脂(校正)
- 數據集: Summeval,QAGS-C,QAGS-X
- 評論:提出了幻覺檢測圖形和圓錐形框架圖形。幻覺檢測是通過從LLM輸出中提取kG三元組來進行幻覺檢測,並比較了相對於提供的上下文的三元組。進行校正是通過取可能包含幻覺的兩倍(0.5以下)來完成的,然後促使LLM在提供的上下文中生成新的,實際上正確的三倍。之後,在單獨的推理中通過了LLM的提示,以根據校正後的三重量替換非事實LLM輸出中的信息。用於實驗的基礎NLI模型是HHEM (Debertav3), True和Trueteacher (T5-XXL)。使用的基礎LLM是Claude2。最終實驗是通過計算參考文本和提出的緩解方法之間的胭脂分數進行的。
Lynx:開源幻覺評估模型
- 指標:準確性
- 數據集: Halubench(由Covidqa,PubMedQA,Drop,FinanceBench和基於檢索的樣品的另一組擾動組成約500個隨機樣品)
- 評論:提出了用於無參考度量評估的資源Halubench和Lynx(基於Llama 3-70億英語模型)。重點是工具幻覺評估,意思是忠於給定背景而不是世界知識的答案。 Halubench的幻覺示例與GPT-4O一起收集。對Lynx的培訓是對Ragtruth,Drop,Covidqa,PubMedQA的2400個樣品進行的,其作為訓練樣本的一部分。評估是通過提取響應級二進制標籤來完成的,表明響應對上下文的忠誠。
LLMS幻覺圖也:結構視角
- 指標:圖編輯距離,光譜距離,程度分佈之間的距離。
- 數據集:圖形圖集距離
- 評論:該基準標出了直接提示LLM的已知圖形結構的功能。研究了與LLM和地面真相圖的距離的距離。基於圖編輯距離的排名在其幻覺幅度中類似LLM。
HallusionBench:一個高級診斷套件,用於大型視覺模型中的糾纏語言幻覺和視覺幻覺
- 指標:準確性。
- 數據集: HallusionBench
- 評論:該基准通過強調細微的理解和解釋視覺數據,對高級大型視覺語言模型(LVLM)(例如GPT-4V(Vision),Gemini Pro Vision,Claude 3和Llava-1.5)提出了重大挑戰。本文為這些視覺問題介紹了一種新穎的結構,旨在建立控制組。該結構能夠對模型的響應趨勢,邏輯一致性和各種故障模式進行定量分析。
多模式大語言模型的統一幻覺檢測
- 指標:準確性,F1/Precision/Recell。
- 數據集: Mhalubench
- 框架: Unihd
- 評論:本文提出了一個更統一的問題設置,用於MLLM中的幻覺檢測,揭示了元評估基準Mhalubench,其中包含各種幻覺類別和多模式任務,並引入了Unihd,這是MLLMS產生的內容幻覺的統一框架。
FACTCHD:基準對事實衝突的幻覺檢測
- 指標:檢測的F1,解釋的匹配
- 數據集: FACTCHD
- 亮點:本文介紹了FACTCHD基準,該基準的重點是檢測事實衝突的幻覺。 Factchd從多個領域整合了事實知識,其中包括廣泛的事實模式,包括原始事實,多跳上推理,比較和集合操作。它的獨特特徵在於它的目標是結合植根於事實信息的證據鏈,從而在預測索賠的事實或非事實方面有說服力的推理。
注意力滿足:關於語言模型的事實錯誤的約束滿意度鏡頭
- 指標: AUROC,風險覆蓋曲線操作點
- 數據集:反事實,由Wikidata生成的事實查詢
- 評論:本文將事實查詢模型為約束 - 滿足問題,發現對約束令牌的關注與事實正確性/幻覺顯著相關。
正確:重新評估事實一致性評估
- 指標: AUROC,跨多個數據集和評估方法
- 數據集:爪子,Xsum,Qags,Frank,Summeval,Begin,Q^2,Dialfact,Fever,Vitaminc
TrueTeacher:通過大語言模型學習事實一致性評估
- 指標: AUROC,跨多個數據集和評估方法
- 數據集: Xsum,Qags,Frank,Summeval
囊 $^3 $ :通過語義吸引的跨檢查一致性在黑盒語言模型中可靠的幻覺檢測
- 指標:準確性和AUROC:分類QA和開放域QA
- 數據集:雪球幻覺,hotpotqa和NQ-Open QA的質數和參議員搜索
忠實和抽象的對話產生的彈性重量去除
- 指標:預測的反應與基礎知識之間的忠誠(Tab。1) - 評論家,Q²,Bert F1,F1。
- 數據集: Wizard of Wikipedia(WOW),DSTC9和DSTC11 Multiwoz 2.1的擴展,Faithdial-哇,哇,哇。
信任您的證據:通過上下文感知解碼減少幻覺
- 指標:摘要的事實一致性:Bert-Precision和Factkb。 MEMOTRAP和NQ-SWAP:精確匹配。
- 數據集:摘要:CNN-DM,XSUM。知識衝突:MEMOTRAP,NQ-SWAP。
當不信任語言模型時:調查參數和非參數記憶的有效性
- 指標:精確匹配/準確性。
- 數據集:具有長尾實體的QA數據集:POPQA,EntityQuestions; NQ。
檢索增強可減少對話中的幻覺
- 指標:發電:困惑,UMIGRAM重疊(F1),Bleu-4,Rouge-L。人類在數據集收集期間基於的一代和知識之間的重疊:知識F1;僅考慮計算F1:稀有F1時數據集中很少見的單詞。
- 數據集: WOW,CMU文檔接地對話(CMU_DOG)。知識來源:蘇格蘭短裙Wikipedia垃圾場。
只需要求進行校準:從人類反饋微調的語言模型中引起校準置信度得分的策略
- 指標:具有溫度縮放(ECE-T)的預期校準誤差(ECE);準確性@覆蓋範圍和覆蓋範圍@精度。
- 數據集:評估事實知識的問題回答數據集:Triviaqa,Sciq,Elthfulqa。
語言模型幻覺如何滾雪球
- 指標:錯誤答案的百分比(幻覺)和“模型知道這是錯誤的”(滾雪球幻覺)的情況。
- 數據集:原始測試,參議員搜索,圖形連接。
通過基於優勢的離線政策梯度改進語言模型
- 指標:對信仰的知識響應產生的忠誠評估 - 信仰批評,可樂(流利度),對話參與,長度含量的TF-IDF多樣性。
- 數據集:忠實的知識基礎對話:Faithdial,更忠實的WOW子集。
充滿信心的生成:黑盒大語言模型的不確定性量化
- 指標: AUROC,AUARC,不確定性和置信度指標(Numset,DEG,EIGV)。
- 數據集: COQA(開原書對話質量質量質量檢查數據集),Triviaqa和自然問題(封閉式QA)。
情境化序列可能性:增強自然語言產生的置信度得分
- 指標: Auroc,Auarc;在置信度或不確定性計算中使用的改進的序列可能性(生成序列的對數概率)。
- 數據集: COQA(開原書對話質量質量質量檢查數據集),Triviaqa和自然問題(封閉式QA)。
信仰:尋求信息對話的忠實基準
- 指標:指標衡量對某些知識的產生反應的幻覺程度,或者它們與黃金忠實的回應重疊:評論家,Q²(F1,NLI),Bertscore,F1,Bleu,Rouge。
- 數據集:信仰,哇。
神經路徑獵人:通過路徑接地減少對話系統中的幻覺
- 指標: FEQA,忠實指標;評論家,幻覺評論家; bleu。
- 數據集: OpendialKg,一個數據集,提供了基於公斤路徑的開放式對話響應。
Halueval:大規模幻覺評估基準
- 指標:準確性:QA,對話,摘要。
- 數據集: Halueval,是生成和人類宣傳的幻覺樣品的集合,用於評估LLMS在識別幻覺時的性能。
大語言模型的自相矛盾的幻覺:評估,檢測和緩解
- 指標:生成句子對後,它在檢測任務中測量精度,召回和F1得分。
- 數據集:來自Wikipedia的12個主題。
通過交互式問題 - 知識對齊方式緩解語言模型幻覺
- 指標:覆蓋範圍:確定生成值中是否包含所有正確的金值值的二進制指標。幻覺:評估問題值和金接地值中不存在的產生值的存在的二元指標。用戶模擬器:用戶模擬器作為“ Oracle”語言模型,訪問有關目標答案的歸因信息。
- 數據集: FuzzyQA,基於Hybriddialogue和Musique的數據集,使用ChatGpt簡化了複雜的問題。
檢查您的事實並重試:改進具有外部知識和自動反饋的大型語言模型
- 指標: KF1,Bleu,Rouge,Chrf,Meteor,Bertscore,Bartscore,Bartscore,Bleurt,AVG長度。
- 數據集:新聞聊天:DSTC7 Track 2被重新使用為新聞對話的評估語料庫。客戶服務:在會話客戶服務方案中使用DSTC11 TRACK 5作為展示,並通過合併主觀信息在DSTC9 TRACK 1上擴展。
selfcheckgpt:生成大語言模型的零資源黑盒幻覺檢測
- 指標:句子級幻覺檢測(AUC-PR)和通道級幻覺檢測(Pearson和Spearman的相關係數)。
- 數據集:來自Wikibio的Wikipedia文章,帶有帶註釋的幻覺。
LLM的內部狀態知道何時說謊
- 指標:每首歌和平均準確性。
- 數據集:真實的數據集包含涵蓋幾個主題的真實和錯誤陳述 - 城市,發明,化學元素,動物,公司和科學事實。
知識鏈:將大語言模型與結構化知識基礎接地的框架
光環:開源弱語言模型中幻覺的估計和減少
- 指標: halocheck和selfscheckgpt分數;一致性,事實。
- 數據集:在NBA域中生成和審查的問題。
及時的針跡節省了九個:通過驗證低信心生成來檢測和緩解LLM的幻覺
- 指標:檢測句子級別和概念級幻覺時的精度和回憶。
- 數據集: Chatgpt生成的段落,涉及來自不同域的150個主題。
大語模型的幻覺來源有關推理任務
- 指標:定向徵費/Holt精確度和召回實體插入和替換。
- 數據集:徵收/HOLT數據集,包含前提 - 混血對與給定[前提p]的任務配對,是否確實是[假設H]? ,在隨機前提中評估模型。
大型多語言翻譯模型中的幻覺
- 指標: MT系統在擾動下產生幻覺的速率(語言對分數,速率)。
- 數據集: Flores-101,WMT,TICO。
引用:建立負責任和負責的大語言模型的關鍵
大語言模型的零資源幻覺預防
- 指標:幻覺教學分類:AUC,ACC,F1,PEA。
- 數據集:概念7,重點是對潛在的幻覺指令進行分類。
RARR:使用語言模型研究和修改語言模型所說的話
- 指標:歸因於編輯之前和之後確定的來源(AIS)得分。
- 數據集:通過從三個數據集中創建任務輸入並促使不同模型產生可能包含幻覺的長格式輸出(FACTOID語句,推理鍊和知識密集型對話)來生成的語句。
Q²:通過問題產生和問題回答評估知識接地對話中的事實一致性
- 指標: Q²是一個度量本身,它與F1代幣級重疊,精度和回憶,Q²w/o nli,e2e nli,重疊,bertscore和bleu進行了比較。
- 數據集: WOW包含對話框,其中機器人需要以知識淵博的方式響應用戶輸入;主題聊天,人類知識的對話數據集;對話NLI,一個基於人格聊天對話任務的數據集,該任務由前提 - 假設對組成。
我們知道我們不知道的嗎?研究超越小隊2.0的無法回答的問題
- 指標: em總的來說,“有答案”和“ IDK”
- 數據集: MNLI,Squad 2.0,Ace-WHQA。
驗證鏈減少了大語言模型的幻覺
- 指標: Wikidata和Wiki類別列表:測試精度,基於列表的問題的正和負(幻覺)實體的平均數量; Multispanqa:F1,精度,召回;長遠的傳記:Factscore。
- 數據集: Wikidata,Wiki類別列表,Multispanqa,長遠的傳記。
在多語言摘要中檢測和緩解幻覺
- 指標: MFACT是一種新穎的多語言忠實指標,該指標從四個英國忠實度量指標開發:DAE,Qafacteval,ENFS%和ENTFA。
- 數據集: XL-SUM,一個多語言摘要數據集。
幻覺但事實!在抽象摘要中檢查幻覺的事實
- 指標: XENT:幻覺(準確性,F1),事實(準確性,F1),胭脂,新穎的N-gram,忠誠度(%enfs,feqa,dae),entfa(%factual ent。,%factual hal。)
- 數據集:一個新穎的數據集,Xent,用於分析抽象性摘要中實體幻覺和事實,由BART生成的800個摘要和註釋。 XSUM的一系列事實和幻覺註釋。
- 評論:選項卡。 2概述了幾種類型的幻覺(例如,事實,非事實,內在)。
使大型語言模型能夠用引用生成文本
- 指標:流利度(Mauve),正確性(ASQA的回憶,Qampari召回-5,ELI5的主張召回),引文質量(引文回憶,引用精度)。
- 數據集:質量檢查數據集,使得1)它們包含重要問題,其中參考很重要,2)問題需要涵蓋多個方面的長篇文本答案,3)回答問題需要綜合多個來源:ASQA,Qampari,Eli5。
自由形式文本生成的代幣級別的無參考幻覺檢測基準
- 指標: ACC,G-Mean,BSS,AUC,而不是幻覺(P,R,F1),幻覺(P,R,F1)。
- 數據集: hades(幻覺檢測數據集),這是一種新穎的令牌級別的無參考的註釋幻覺檢測數據集,該數據集通過擾動從英語Wikipedia提取的大量文本段獲得,並用擁擠的註釋進行了驗證。
- 評論:圖3概述了幾種幻覺類型(特定領域的知識,常識性知識,不一致或不正確的搭配,與核心主題無關,與先前的上下文沖突,與成功的上下文沖突,..)
為語言模型的事實評估生成基準
- 指標:示例的百分比為事實完成分配了最高概率。
- 數據集: Wiki-Factor和News-Factor:基於Wikipedia和新聞文章的LLMS的兩個新穎的事實評估基準。每個示例都由前綴,事實完成和三個類似但非事實的替代方案組成。
- 評論:本文介紹了一個框架,用於自動從給定語料庫生成此類數據集,並在第3節中詳細介紹。
語言模型知道他們何時幻覺參考嗎?
- 指標:幻覺率(H%,在1000個產生的標題中)
- 數據集:關於ACM計算分類系統的主題的生成(真和幻覺)引用。
為什麼Chatgpt在提供真實的答案方面不足?
- 指標: #correct和#wrong答案,以及不同類型的失敗計數:理解,事實,特異性,推斷。
- 數據集: hotpotqa,boolq
- 評論:這對不同的錯誤類型具有很好的分類學 - 例如,理解,事實,特殊性,推理。
LM與LM:通過盤檢查檢測事實錯誤
- 指標:精度,回憶,F1(在不同的盤問策略下:AYS,IDK,基於置信度,IC-IDK)
- 數據集: Triviaqa,NQ,PopQA
RHO(ρ):通過知識接地減少開放域對話的幻覺
- 指標: Bleu,Rouge-L; FEQA,QuestEval,EntityCoverage(精度,召回,F1)估計幻覺學位-FRQA和QuestEval是基於質量檢查的指標,用於評估產量在生成任務中的忠誠度。
- 數據集: opendialkg
FACTSCORE:長期文本生成中事實精度的細粒度原子評估
- 指標:百分比支持人類實體頻率水平的陳述。
- 數據集:從LLM產生的人類傳記,人類註釋者將其分解為支持事實。
ExpertQA:專家策劃的問題和歸因答案
- 指標:自動標籤的零射擊(P,R,F1)和微調(P,R,F1); Factscore F1在參考事實標籤上得分;自動(可歸因於已確定的來源)得分。
- 數據集:跨多個領域的專家策劃問題(例如,人類學,建築,生物學,化學,工程和技術,醫療保健/醫學;請參見tab。1for樣本)通過問題類型(例如,帶有明確的答案,開放式的可能性答案,開放式的潛在含糊的問題,潛在的含糊問題,建議或建議的信息,請參閱一個問題,請參閱tab; tab。
Dola:通過對比層解碼可改善大語言模型的事實
- 指標: TruthFlqa:MC1,MC2,MC3分數;因素:新聞,維基;這些是多項選擇結果。開放式一代:對於真實情況,他們使用%真相,%信息,%真相*信息,%拒絕;對於COT任務(策略QA和GSM8K),它們的準確性。
- 數據集:真實性,因素(新聞/Wiki),策略QA,GSM8K
Freshllms:帶有搜索引擎增強的大型語言模型
- 指標:準確性(嚴格,在快速變化的問題上放鬆,慢速變化的問題,從未改變的問題,虛假的問題涉及2022年之前和自2022年以來的知識,1-跳和多跳的問題以及總體上)。
- 數據集: FreshQA,一種新的QA基準測試,其中有600個問題涵蓋了各種問答類型。
超越事實:作為知識生成器的大型語言模型的全面評估
- 指標:事實,相關性,連貫性,信息性,幫助性和有效性。
- 數據集:自然問題,維基百科的嚮導。
複雜的主張驗證,並在野外檢索的證據
- 指標:準確性,MAE,Macro-F1,軟精度。
- 數據集:索賠(SoipeDecomp),其中包含來自Politifactl的1200個複雜索賠,每個主張都標有六個真實標籤之一之一,這是預期事實檢查者撰寫的理由段以及先前工作註釋的子問題。
FELM:基準對大語言模型的事實評估
- 指標:準確性,F1/Precision/Recell。
- 數據集:推理,數學,寫作/rec,科學/技術,世界知識:GSM8K,CHETGPT,數學,真實Fultulqa,Quora,MMLU/HC3。
評估中文大語模型的幻覺
- 指標: Humand和GPT-4評估。
- 數據集: Halluqa(他們建議),並提及《真實性》,《中國法》,halueval。
關於抽象性摘要中的忠誠和事實
- 指標: Rouge,Bertscore;人類評估(識別幻覺跨度,以及是固有的還是外在的) -內在幻覺是對輸入文檔中信息的操縱,而外部幻覺是從輸入文檔中直接推斷的信息。人類被要求註釋固有和外在的幻覺。
- 數據集: XSUM。
Questeval:摘要要求基於事實的評估
- 指標: Questeval(在這項工作中提出),用於測試一致性,連貫性,流利性和相關性。胭脂,藍色,流星,Bertscore。 Summaqa,QAGS。
- 數據集: Summeval,QAGS-XSUM,Subl-V2。
QAFACTEVAL:改進基於質量檢查的事實一致性評估用於摘要
- 指標: Qafacteval(在這項工作中提出),測量答案選擇,問題產生,問題答案,答案重疊和過濾/答案。
- 數據集: Summac,用於二進制事實一致性評估的基準集合; CGS,CNN/dailymail的正確和不正確的句子; XSF;多層factcc;薩米瓦;坦率; QAGS。
長期文檔的快速準確的事實不一致檢測
- 指標:比例(這項工作中提出的新指標)。與Q²,ANLI,Summac,F1,Bleurt,Questeval,Bartscore,Bertscore相比(表3)。
- 數據集: True基準和屏幕標準,這項工作中提出的新數據集評估了長形式對話中的事實不一致(來自Summscreen的52個文檔)。
了解弗蘭克抽象性摘要中的事實:事實指標的基準
- 指標: Bertscore,FEQA,QGFS,DAE,FACTCC
- 數據集:提出了一個新數據集弗蘭克:CNN/DM和XSUM數據集的人類註釋的事實錯誤
正確:重新評估事實一致性評估
- 指標: Q²,Anli,Summac,Bleurt,Questeval,factcc,Bartscore,bertscore
- 數據集:合併11個不同的人註釋數據集以達到FCTAUTAUL。
幻覺性(UN)的奇怪案例:在過度自信的大型語言模型的隱藏狀態中找到真相
- 指標:(分類)F-1,精確匹配,(令牌)F-1
- 數據集:小隊,自然問題,馬西克
- 評論:本文模型探討了LLMS在閉幕環境中處理(UN)可回答問題的處理,即根據給定段落回答一個問題,該段落沒有答案。該論文表明,儘管LLMS傾向於幻覺上下文答案,而不是聲明他們無法回答問題,但他們對問題(UN)的回答性具有內部理解。
Android知道他們只是夢見電綿羊嗎?
- 指標:(幻覺檢測)響應級F1,跨度級別的部分信用匹配F1
- 數據集:有機生成和合成編輯的CNN Dailymail,Convfever和E2E,標記為幻覺的跨度
- 評論:語言模型知道何時幻覺,我們可以在解碼過程中對LLM隱藏狀態進行培訓以可靠地檢測它們。
回溯校正可減少摘要中的幻覺
- 指標: AlignScore,FactCC,BS-Fact,Rouge-l
- 數據集: CNN/DM,XSUM,新聞編輯室
語言模型的細粒度幻覺檢測和編輯
- 指標:精度,回憶,F1。
- 數據集:用於各種類型(事實)幻覺的自定義細粒幻覺檢測/編輯數據集:實體,關係,矛盾,發明,主觀,無法驗證。
LLM作為事實推理:現有基準及以後的見解
- 指標:各種錯誤類型的準確性 - 積極的示例,日期交換,實體交換,否定句子,數字交換,代詞交換。
- 數據集:他們提出了總結,這是一個10域的不一致檢測基準。
評估抽象文本摘要的事實一致性
- 指標:他們提出了FACTCC,該指標是衡量抽象性文本摘要的事實一致性的指標(直覺:摘要與源文檔的事實相同,實際上是一致的)
- 數據集:用於生成培訓數據的CNN/DM; MNLI和發燒用於培訓模型。基於人類的有關CNN/DM文章主張的評估實驗。
總結:重新訪問基於NLI的模型,以摘要中的不一致檢測
- 指標:每個數據集都帶有其指標(例如,Cogensumm使用基於重讀的度量; Xsumfaith,Summeval和Frank提出了幾個指標,並分析了它們與人類註釋的相關性;等等) - 對於Summac,作者提議使用平衡的準確性提議。
- 數據集:他們提出了Summac(摘要一致性),這是一個由六個大不一致檢測數據集組成的基準:Cogensumm,Xsumfaith,Polytope,polytope,factcc,Summeval和Frank。
關於對話模型中幻覺的起源:是數據集還是模型?
- 指標:專家和非專家註釋:部分幻覺,損失,幻覺,UNCOUP,通用(這些類別中的每一個都有更多細粒的子類 - 例如,請參見圖2) - 遵循開始和VRM分類法的註釋。
- 數據集:知識接地的對話基準:Wikipedia(WOW),CMU-DOG和TopicalChat的嚮導 - 由兩個揚聲器之間的對話組成的數據集,該數據集是在兩個揚聲器之間進行對話,其中的目標是傳達有關特定主題的信息,而揚聲器則與當前轉彎相關的知識片段。
教授語言模型以減少合成任務的幻覺
- 指標:多種設置中的幻覺率(原始的,具有完整的LLM權重,合成數據或合成和參考數據的混合物)的原始系統消息,具有完整的LLM權重); Bleu,Rouge-1,Rouge-2,Rouge-L。
- 數據集:搜索和撤回(MS MARCO),會議摘要(QMSUM),自動化臨床報告生成(ACI-Bench)。
忠實感知的解碼策略用於抽象性摘要
- 指標: Rouge-L,Bertscore,BS-Fact,Factcc,Dae,Questeval
- 數據集: CNN/DM,XSUM
KL差引導溫度採樣
- 指標:對話質量檢查:MNLI,SNLI,發燒,爪子,Sctail和Vitaminc的模型。摘要:在Anli和XNLI上進行了微調。
- 數據集:在對話上下文(QRECC),XLSUM中重寫問題。
在修剪大型語言模型中調查幻覺,以進行抽象性摘要
- 指標:幻覺風險指標(Harim+),Summac,Summaczs,Summacconv,幻覺風險比(HRR)
- 數據集: FACTCC,Polytope,Summeval,法律合同,RCT
基於實體的知識衝突回答
- 指標: EM,記憶率。
- 數據集:帶答案重疊(AO)的NQ Dev,NewsQA沒有答案重疊(NAO)。
TruthX:通過在真實空間中編輯大型語言模型來減輕幻覺
- 指標: MC1/MC2/MC3分數多項選擇任務; %真相,%信息,%真相*truthfulqa開放式生成任務的信息;自然問題的選擇準確性,Triviaqa和Factor(新聞,專家,Wiki)。
- 數據集:真實性,自然問題,Triviaqa,因素(新聞,專家,Wiki)
問題分解改善了模型生成推理的忠誠
- 指標:準確性,最終答案截斷敏感性,最終答案損壞敏感性,偏見的信息準確性更改。
- 數據集: HotPotQA,OpenBookQa,StrategyQA,真實性。
大語言模型的自相矛盾的幻覺:評估,檢測和緩解
- 指標:用於檢測:精確,回憶,F1。為了緩解:消除自相矛盾的比率,保留的信息事實比率增加,困惑增加。
- 數據集:自定義開放域文本生成數據集,Wikipedia實體的LLM生成的百科全書文本描述,POPQA。
使用語義熵在大語言模型中檢測幻覺
- 指標:用於檢測:AUROC,AURAC。
- 數據集: QA:Triviaqa,Squad,Bioasq,NQ-OPEN,SVAMP。本文隨附的傳記生成數據集FactualBio。
演員:視覺語言模型的跨模式對齊相似性測試
- 指標:建議演員,這是一種簡單的自洽度量,試圖評估多模型在跨模式之間是否一致。這在兩個階段工作,在第一階段,模型會產生相似之處/真實的語句,比較兩個輸入,在第二階段,模型將自己的輸出評判為真實性。因此,一致的模型應始終將自己的輸出評估為真實。
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

分類法
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback 框架。
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.