令人敬畏的障碍检测
引用此存储库
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
论文和摘要
通过基于SAE的表示工程,LLMS中的转向知识选择行为
- 指标:确切匹配
- 数据集: NQSWAP,MACNOISE
- 评论:使用稀疏自动编码器(SAE)来增强上下文知识的使用情况的第一项工作。
火星:对生成LLM的不确定性估计的意义反应评分
- 指标: AUROC
- 数据集: Triviaqa,NaturalQA,WebQA
- 评论:称为火星的LLM不确定性估计技术通过为代币分配更大的权重来代替长度差异概率评分,从而更大程度地促进了正确性。
不要设计,学习:可训练的评分功能,用于生成LLMS中的不确定性估计
- 指标: AUROC,PRR
- 数据集: Triviaqa,GSM8K,NaturalQA,WebQA
- 评论: LLM不确定性估计技术称为LARS训练基于编码器的变压器,该变压器以查询,生成和令牌概率为输入,并将不确定性得分作为输出返回
量化任何语言模型的答案的不确定性并增强其可信度
- 指标:准确性,精确/召回/AUROC
- 数据集: Triviaqa,GSM8K,SVAMP,常识QA
- 评论: LLM不确定性估计技术称为BSDETECTOR,将自我反射确定性和观察到的一致性结合在一起。以高精度/召回率检测错误/幻觉的LLM响应,也可以自动提高LLM响应的准确性。
解次:通过对比的检索头来解码以减轻幻觉
- 指标: MC1,MC2,MC3的真实性多项选择任务; %真实,%信息,%真相*真实性开放式生成任务的信息;子跨QA任务(NQ-OPEN,NQ-SWAP,TRIVIAQA,POPQA,MUSICE)的亚ave精确匹配; MEMOTRAP的准确性; IFEVAL的及时级别和指令级的精度。
- 数据集:真实性,NQ-OPEN,NQ-SWAP,TRIVIAQA,POPQA,MEMOTRAP,IFEVAL,MUSICE
利用幻觉来减少手动及时依赖性的及时分段
- 指标: Mae,f_ {beta},s_ {alpha}
- 数据集:变色龙,迷彩,COD10K,CVC-COLONDB,KVASIR,ISIC
- 评论:第一项研究并不认为幻觉纯粹是负面的,而是模型预训练的一个常见方面。与以前的直接消除幻觉的方法不同,Promac首先刺激幻觉,以挖掘模型预训练的先验知识,以在图像中收集与任务相关的信息。然后,它消除了无关的幻觉来减轻其负面影响。该方法的有效性已在多个具有挑战性的细分任务中得到证明。
GrapheVal:基于知识图的LLM幻觉评估框架
- 指标:准确性(检测),胭脂(校正)
- 数据集: Summeval,QAGS-C,QAGS-X
- 评论:提出了幻觉检测图形和圆锥形框架图形。幻觉检测是通过从LLM输出中提取kG三元组来进行幻觉检测,并比较了相对于提供的上下文的三元组。进行校正是通过取可能包含幻觉的两倍(0.5以下)来完成的,然后促使LLM在提供的上下文中生成新的,实际上正确的三倍。之后,在单独的推理中通过了LLM的提示,以根据校正后的三重量替换非事实LLM输出中的信息。用于实验的基础NLI模型是HHEM (Debertav3), True和Trueteacher (T5-XXL)。使用的基础LLM是Claude2。最终实验是通过计算参考文本和提出的缓解方法之间的胭脂分数进行的。
Lynx:开源幻觉评估模型
- 指标:准确性
- 数据集: Halubench(由Covidqa,PubMedQA,Drop,FinanceBench和基于检索的样品的另一组扰动组成约500个随机样品)
- 评论:提出了用于无参考度量评估的资源Halubench和Lynx(基于Llama 3-70亿英语模型)。重点是工具幻觉评估,意思是忠于给定背景而不是世界知识的答案。 Halubench的幻觉示例与GPT-4O一起收集。对Lynx的培训是对Ragtruth,Drop,Covidqa,PubMedQA的2400个样品进行的,其作为训练样本的一部分。评估是通过提取响应级二进制标签来完成的,表明响应对上下文的忠诚。
LLMS幻觉图也:结构视角
- 指标:图编辑距离,光谱距离,程度分布之间的距离。
- 数据集:图形图集距离
- 评论:该基准标出了直接提示LLM的已知图形结构的功能。研究了与LLM和地面真相图的距离的距离。基于图编辑距离的排名在其幻觉幅度中类似LLM。
HallusionBench:一个高级诊断套件,用于大型视觉模型中的纠缠语言幻觉和视觉幻觉
- 指标:准确性。
- 数据集: HallusionBench
- 评论:该基准通过强调细微的理解和解释视觉数据,对高级大型视觉语言模型(LVLM)(例如GPT-4V(Vision),Gemini Pro Vision,Claude 3和Llava-1.5)提出了重大挑战。本文为这些视觉问题介绍了一种新颖的结构,旨在建立控制组。该结构能够对模型的响应趋势,逻辑一致性和各种故障模式进行定量分析。
多模式大语言模型的统一幻觉检测
- 指标:准确性,F1/Precision/Recell。
- 数据集: Mhalubench
- 框架: Unihd
- 评论:本文提出了一个更统一的问题设置,用于MLLM中的幻觉检测,揭示了元评估基准Mhalubench,其中包含各种幻觉类别和多模式任务,并引入了Unihd,这是MLLMS产生的内容幻觉的统一框架。
FACTCHD:基准对事实冲突的幻觉检测
- 指标:检测的F1,解释的匹配
- 数据集: FACTCHD
- 亮点:本文介绍了FACTCHD基准,该基准的重点是检测事实冲突的幻觉。 Factchd从多个领域整合了事实知识,其中包括广泛的事实模式,包括原始事实,多跳上推理,比较和集合操作。它的独特特征在于它的目标是结合植根于事实信息的证据链,从而在预测索赔的事实或非事实方面有说服力的推理。
注意力满足:关于语言模型的事实错误的约束满意度镜头
- 指标: AUROC,风险覆盖曲线操作点
- 数据集:反事实,由Wikidata生成的事实查询
- 评论:本文将事实查询模型为约束 - 满足问题,发现对约束令牌的关注与事实正确性/幻觉显着相关。
正确:重新评估事实一致性评估
- 指标: AUROC,跨多个数据集和评估方法
- 数据集:爪子,Xsum,Qags,Frank,Summeval,Begin,Q^2,Dialfact,Fever,Vitaminc
TrueTeacher:通过大语言模型学习事实一致性评估
- 指标: AUROC,跨多个数据集和评估方法
- 数据集: Xsum,Qags,Frank,Summeval
囊 $^3 $ :通过语义吸引的跨检查一致性在黑盒语言模型中可靠的幻觉检测
- 指标:准确性和AUROC:分类QA和开放域QA
- 数据集:雪球幻觉,hotpotqa和NQ-Open QA的质数和参议员搜索
忠实和抽象的对话产生的弹性重量去除
- 指标:预测的反应与基础知识之间的忠诚(Tab。1) - 评论家,Q²,Bert F1,F1。
- 数据集: Wizard of Wikipedia(WOW),DSTC9和DSTC11 Multiwoz 2.1的扩展,Faithdial-哇,哇,哇。
信任您的证据:通过上下文感知解码减少幻觉
- 指标:摘要的事实一致性:Bert-Precision和Factkb。 MEMOTRAP和NQ-SWAP:精确匹配。
- 数据集:摘要:CNN-DM,XSUM。知识冲突:MEMOTRAP,NQ-SWAP。
当不信任语言模型时:调查参数和非参数记忆的有效性
- 指标:精确匹配/准确性。
- 数据集:具有长尾实体的QA数据集:POPQA,EntityQuestions; NQ。
检索增强可减少对话中的幻觉
- 指标:发电:困惑,UMIGRAM重叠(F1),Bleu-4,Rouge-L。人类在数据集收集期间基于的一代和知识之间的重叠:知识F1;仅考虑计算F1:稀有F1时数据集中很少见的单词。
- 数据集: WOW,CMU文档接地对话(CMU_DOG)。知识来源:苏格兰短裙Wikipedia垃圾场。
只需要求进行校准:从人类反馈微调的语言模型中引起校准置信度得分的策略
- 指标:具有温度缩放(ECE-T)的预期校准误差(ECE);准确性@覆盖范围和覆盖范围@精度。
- 数据集:评估事实知识的问题回答数据集:Triviaqa,Sciq,Elthfulqa。
语言模型幻觉如何滚雪球
- 指标:错误答案的百分比(幻觉)和“模型知道这是错误的”(滚雪球幻觉)的情况。
- 数据集:原始测试,参议员搜索,图形连接。
通过基于优势的离线政策梯度改进语言模型
- 指标:对信仰的知识响应产生的忠诚评估 - 信仰批评,可乐(流利度),对话参与,长度含量的TF-IDF多样性。
- 数据集:忠实的知识基础对话:Faithdial,更忠实的WOW子集。
充满信心的生成:黑盒大语言模型的不确定性量化
- 指标: AUROC,AUARC,不确定性和置信度指标(Numset,DEG,EIGV)。
- 数据集: COQA(开原书对话质量质量质量检查数据集),Triviaqa和自然问题(封闭式QA)。
情境化序列可能性:增强自然语言产生的置信度得分
- 指标: Auroc,Auarc;在置信度或不确定性计算中使用的改进的序列可能性(生成序列的对数概率)。
- 数据集: COQA(开原书对话质量质量质量检查数据集),Triviaqa和自然问题(封闭式QA)。
信仰:寻求信息对话的忠实基准
- 指标:指标衡量对某些知识的产生反应的幻觉程度,或者它们与黄金忠实的回应重叠:评论家,Q²(F1,NLI),Bertscore,F1,Bleu,Rouge。
- 数据集:信仰,哇。
神经路径猎人:通过路径接地减少对话系统中的幻觉
- 指标: FEQA,忠实指标;评论家,幻觉评论家; bleu。
- 数据集: OpendialKg,一个数据集,提供了基于公斤路径的开放式对话响应。
Halueval:大规模幻觉评估基准
- 指标:准确性:QA,对话,摘要。
- 数据集: Halueval,是生成和人类宣传的幻觉样品的集合,用于评估LLMS在识别幻觉时的性能。
大语言模型的自相矛盾的幻觉:评估,检测和缓解
- 指标:生成句子对后,它在检测任务中测量精度,召回和F1得分。
- 数据集:来自Wikipedia的12个主题。
通过交互式问题 - 知识对齐方式缓解语言模型幻觉
- 指标:覆盖范围:确定生成值中是否包含所有正确的金值值的二进制指标。幻觉:评估问题值和金接地值中不存在的产生值的存在的二元指标。用户模拟器:用户模拟器作为“ Oracle”语言模型,访问有关目标答案的归因信息。
- 数据集: FuzzyQA,基于Hybriddialogue和Musique的数据集,使用ChatGpt简化了复杂的问题。
检查您的事实并重试:改进具有外部知识和自动反馈的大型语言模型
- 指标: KF1,Bleu,Rouge,Chrf,Meteor,Bertscore,Bartscore,Bartscore,Bleurt,AVG长度。
- 数据集:新闻聊天:DSTC7 Track 2被重新使用为新闻对话的评估语料库。客户服务:在会话客户服务方案中使用DSTC11 TRACK 5作为展示,并通过合并主观信息在DSTC9 TRACK 1上扩展。
selfcheckgpt:生成大语言模型的零资源黑盒幻觉检测
- 指标:句子级幻觉检测(AUC-PR)和通道级幻觉检测(Pearson和Spearman的相关系数)。
- 数据集:来自Wikibio的Wikipedia文章,带有带注释的幻觉。
LLM的内部状态知道何时说谎
- 指标:每首歌和平均准确性。
- 数据集:真实的数据集包含涵盖几个主题的真实和错误陈述 - 城市,发明,化学元素,动物,公司和科学事实。
知识链:将大语言模型与结构化知识基础接地的框架
光环:开源弱语言模型中幻觉的估计和减少
- 指标: halocheck和selfscheckgpt分数;一致性,事实。
- 数据集:在NBA域中生成和审查的问题。
及时的针迹节省了九个:通过验证低信心生成来检测和缓解LLM的幻觉
- 指标:检测句子级别和概念级幻觉时的精度和回忆。
- 数据集: Chatgpt生成的段落,涉及来自不同域的150个主题。
大语模型的幻觉来源有关推理任务
- 指标:定向征费/Holt精确度和召回实体插入和替换。
- 数据集:征收/HOLT数据集,包含前提 - 混血对与给定[前提p]的任务配对,是否确实是[假设H]? ,在随机前提中评估模型。
大型多语言翻译模型中的幻觉
- 指标: MT系统在扰动下产生幻觉的速率(语言对分数,速率)。
- 数据集: Flores-101,WMT,TICO。
引用:建立负责任和负责的大语言模型的关键
大语言模型的零资源幻觉预防
- 指标:幻觉教学分类:AUC,ACC,F1,PEA。
- 数据集:概念7,重点是对潜在的幻觉指令进行分类。
RARR:使用语言模型研究和修改语言模型所说的话
- 指标:归因于编辑之前和之后确定的来源(AIS)得分。
- 数据集:通过从三个数据集中创建任务输入并促使不同模型产生可能包含幻觉的长格式输出(FACTOID语句,推理链和知识密集型对话)来生成的语句。
Q²:通过问题产生和问题回答评估知识接地对话中的事实一致性
- 指标: Q²是一个度量本身,它与F1代币级重叠,精度和回忆,Q²w/o nli,e2e nli,重叠,bertscore和bleu进行了比较。
- 数据集: WOW包含对话框,其中机器人需要以知识渊博的方式响应用户输入;主题聊天,人类知识的对话数据集;对话NLI,一个基于人格聊天对话任务的数据集,该任务由前提 - 假设对组成。
我们知道我们不知道的吗?研究超越小队2.0的无法回答的问题
- 指标: em总的来说,“有答案”和“ IDK”
- 数据集: MNLI,Squad 2.0,Ace-WHQA。
验证链减少了大语言模型的幻觉
- 指标: Wikidata和Wiki类别列表:测试精度,基于列表的问题的正和负(幻觉)实体的平均数量; Multispanqa:F1,精度,召回;长远的传记:Factscore。
- 数据集: Wikidata,Wiki类别列表,Multispanqa,长远的传记。
在多语言摘要中检测和缓解幻觉
- 指标: MFACT是一种新颖的多语言忠实指标,该指标从四个英国忠实度量指标开发:DAE,Qafacteval,ENFS%和ENTFA。
- 数据集: XL-SUM,一个多语言摘要数据集。
幻觉但事实!在抽象摘要中检查幻觉的事实
- 指标: XENT:幻觉(准确性,F1),事实(准确性,F1),胭脂,新颖的N-gram,忠诚度(%enfs,feqa,dae),entfa(%factual ent。,%factual hal。)
- 数据集:一个新颖的数据集,Xent,用于分析抽象性摘要中实体幻觉和事实,由BART生成的800个摘要和注释。 XSUM的一系列事实和幻觉注释。
- 评论:选项卡。 2概述了几种类型的幻觉(例如,事实,非事实,内在)。
使大型语言模型能够用引用生成文本
- 指标:流利度(Mauve),正确性(ASQA的回忆,Qampari召回-5,ELI5的主张召回),引文质量(引文回忆,引用精度)。
- 数据集:质量检查数据集,使得1)它们包含重要问题,其中参考很重要,2)问题需要涵盖多个方面的长篇文本答案,3)回答问题需要综合多个来源:ASQA,Qampari,Eli5。
自由形式文本生成的代币级别的无参考幻觉检测基准
- 指标: ACC,G-Mean,BSS,AUC,而不是幻觉(P,R,F1),幻觉(P,R,F1)。
- 数据集: hades(幻觉检测数据集),这是一种新颖的令牌级别的无参考的注释幻觉检测数据集,该数据集通过扰动从英语Wikipedia提取的大量文本段获得,并用拥挤的注释进行了验证。
- 评论:图3概述了几种幻觉类型(特定领域的知识,常识性知识,不一致或不正确的搭配,与核心主题无关,与先前的上下文冲突,与成功的上下文冲突,..)
为语言模型的事实评估生成基准
- 指标:示例的百分比为事实完成分配了最高概率。
- 数据集: Wiki-Factor和News-Factor:基于Wikipedia和新闻文章的LLMS的两个新颖的事实评估基准。每个示例都由前缀,事实完成和三个类似但非事实的替代方案组成。
- 评论:本文介绍了一个框架,用于自动从给定语料库生成此类数据集,并在第3节中详细介绍。
语言模型知道他们何时幻觉参考吗?
- 指标:幻觉率(H%,在1000个产生的标题中)
- 数据集:关于ACM计算分类系统的主题的生成(真和幻觉)引用。
为什么Chatgpt在提供真实的答案方面不足?
- 指标: #correct和#wrong答案,以及不同类型的失败计数:理解,事实,特异性,推断。
- 数据集: hotpotqa,boolq
- 评论:这对不同的错误类型具有很好的分类学 - 例如,理解,事实,特殊性,推理。
LM与LM:通过盘检查检测事实错误
- 指标:精度,回忆,F1(在不同的盘问策略下:AYS,IDK,基于置信度,IC-IDK)
- 数据集: Triviaqa,NQ,PopQA
RHO(ρ):通过知识接地减少开放域对话的幻觉
- 指标: Bleu,Rouge-L; FEQA,QuestEval,EntityCoverage(精度,召回,F1)估计幻觉学位-FRQA和QuestEval是基于质量检查的指标,用于评估产量在生成任务中的忠诚度。
- 数据集: opendialkg
FACTSCORE:长期文本生成中事实精度的细粒度原子评估
- 指标:百分比支持人类实体频率水平的陈述。
- 数据集:从LLM产生的人类传记,人类注释者将其分解为支持事实。
ExpertQA:专家策划的问题和归因答案
- 指标:自动标签的零射击(P,R,F1)和微调(P,R,F1); Factscore F1在参考事实标签上得分;自动(可归因于已确定的来源)得分。
- 数据集:跨多个领域的专家策划问题(例如,人类学,建筑,生物学,化学,工程和技术,医疗保健/医学;请参见tab。1for样本)通过问题类型(例如,带有明确的答案,开放式的可能性答案,开放式的潜在含糊的问题,潜在的含糊问题,建议或建议的信息,请参阅一个问题,请参阅tab; tab。
Dola:通过对比层解码可改善大语言模型的事实
- 指标: TruthFlqa:MC1,MC2,MC3分数;因素:新闻,维基;这些是多项选择结果。开放式一代:对于真实情况,他们使用%真相,%信息,%真相*信息,%拒绝;对于COT任务(策略QA和GSM8K),它们的准确性。
- 数据集:真实性,因素(新闻/Wiki),策略QA,GSM8K
Freshllms:带有搜索引擎增强的大型语言模型
- 指标:准确性(严格,在快速变化的问题上放松,慢速变化的问题,从未改变的问题,虚假的问题涉及2022年之前和自2022年以来的知识,1-跳和多跳的问题以及总体上)。
- 数据集: FreshQA,一种新的QA基准测试,其中有600个问题涵盖了各种问答类型。
超越事实:作为知识生成器的大型语言模型的全面评估
- 指标:事实,相关性,连贯性,信息性,帮助性和有效性。
- 数据集:自然问题,维基百科的向导。
复杂的主张验证,并在野外检索的证据
- 指标:准确性,MAE,Macro-F1,软精度。
- 数据集:索赔(SoipeDecomp),其中包含来自Politifactl的1200个复杂索赔,每个主张都标有六个真实标签之一之一,这是预期事实检查者撰写的理由段以及先前工作注释的子问题。
FELM:基准对大语言模型的事实评估
- 指标:准确性,F1/Precision/Recell。
- 数据集:推理,数学,写作/rec,科学/技术,世界知识:GSM8K,CHETGPT,数学,真实Fultulqa,Quora,MMLU/HC3。
评估中文大语模型的幻觉
- 指标: Humand和GPT-4评估。
- 数据集: Halluqa(他们建议),并提及《真实性》,《中国法》,halueval。
关于抽象性摘要中的忠诚和事实
- 指标: Rouge,Bertscore;人类评估(识别幻觉跨度,以及是固有的还是外在的) -内在幻觉是对输入文档中信息的操纵,而外部幻觉是从输入文档中直接推断的信息。人类被要求注释固有和外在的幻觉。
- 数据集: XSUM。
Questeval:摘要要求基于事实的评估
- 指标: Questeval(在这项工作中提出),用于测试一致性,连贯性,流利性和相关性。胭脂,蓝色,流星,Bertscore。 Summaqa,QAGS。
- 数据集: Summeval,QAGS-XSUM,Subl-V2。
QAFACTEVAL:改进基于质量检查的事实一致性评估用于摘要
- 指标: Qafacteval(在这项工作中提出),测量答案选择,问题产生,问题答案,答案重叠和过滤/答案。
- 数据集: Summac,用于二进制事实一致性评估的基准集合; CGS,CNN/dailymail的正确和不正确的句子; XSF;多层factcc;萨米瓦;坦率; QAGS。
长期文档的快速准确的事实不一致检测
- 指标:比例(这项工作中提出的新指标)。与Q²,ANLI,Summac,F1,Bleurt,Questeval,Bartscore,Bertscore相比(表3)。
- 数据集: True基准和屏幕标准,这项工作中提出的新数据集评估了长形式对话中的事实不一致(来自Summscreen的52个文档)。
了解弗兰克抽象性摘要中的事实:事实指标的基准
- 指标: Bertscore,FEQA,QGFS,DAE,FACTCC
- 数据集:提出了一个新数据集弗兰克:CNN/DM和XSUM数据集的人类注释的事实错误
正确:重新评估事实一致性评估
- 指标: Q²,Anli,Summac,Bleurt,Questeval,factcc,Bartscore,bertscore
- 数据集:合并11个不同的人注释数据集以达到FCTAUTAUL。
幻觉性(UN)的奇怪案例:在过度自信的大型语言模型的隐藏状态中找到真相
- 指标:(分类)F-1,精确匹配,(令牌)F-1
- 数据集:小队,自然问题,马西克
- 评论:本文模型探讨了LLMS在闭幕环境中处理(UN)可回答问题的处理,即根据给定段落回答一个问题,该段落没有答案。该论文表明,尽管LLMS倾向于幻觉上下文答案,而不是声明他们无法回答问题,但他们对问题(UN)的回答性具有内部理解。
Android知道他们只是梦见电绵羊吗?
- 指标:(幻觉检测)响应级F1,跨度级别的部分信用匹配F1
- 数据集:有机生成和合成编辑的CNN Dailymail,Convfever和E2E,标记为幻觉的跨度
- 评论:语言模型知道何时幻觉,我们可以在解码过程中对LLM隐藏状态进行培训以可靠地检测它们。
回溯校正可减少摘要中的幻觉
- 指标: AlignScore,FactCC,BS-Fact,Rouge-l
- 数据集: CNN/DM,XSUM,新闻编辑室
语言模型的细粒度幻觉检测和编辑
- 指标:精度,回忆,F1。
- 数据集:用于各种类型(事实)幻觉的自定义细粒幻觉检测/编辑数据集:实体,关系,矛盾,发明,主观,无法验证。
LLM作为事实推理:现有基准及以后的见解
- 指标:各种错误类型的准确性 - 积极的示例,日期交换,实体交换,否定句子,数字交换,代词交换。
- 数据集:他们提出了总结,这是一个10域的不一致检测基准。
评估抽象文本摘要的事实一致性
- 指标:他们提出了FACTCC,该指标是衡量抽象性文本摘要的事实一致性的指标(直觉:摘要与源文档的事实相同,实际上是一致的)
- 数据集:用于生成培训数据的CNN/DM; MNLI和发烧用于培训模型。基于人类的有关CNN/DM文章主张的评估实验。
总结:重新访问基于NLI的模型,以摘要中的不一致检测
- 指标:每个数据集都带有其指标(例如,Cogensumm使用基于重读的度量; Xsumfaith,Summeval和Frank提出了几个指标,并分析了它们与人类注释的相关性;等等) - 对于Summac,作者提议使用平衡的准确性提议。
- 数据集:他们提出了Summac(摘要一致性),这是一个由六个大不一致检测数据集组成的基准:Cogensumm,Xsumfaith,Polytope,polytope,factcc,Summeval和Frank。
关于对话模型中幻觉的起源:是数据集还是模型?
- 指标:专家和非专家注释:部分幻觉,损失,幻觉,UNCOUP,通用(这些类别中的每一个都有更多细粒的子类 - 例如,请参见图2) - 遵循开始和VRM分类法的注释。
- 数据集:知识接地的对话基准:Wikipedia(WOW),CMU-DOG和TopicalChat的向导 - 由两个扬声器之间的对话组成的数据集,该数据集是在两个扬声器之间进行对话,其中的目标是传达有关特定主题的信息,而扬声器则与当前转弯相关的知识片段。
教授语言模型以减少合成任务的幻觉
- 指标:多种设置中的幻觉率(原始的,具有完整的LLM权重,合成数据或合成和参考数据的混合物)的原始系统消息,具有完整的LLM权重); Bleu,Rouge-1,Rouge-2,Rouge-L。
- 数据集:搜索和撤回(MS MARCO),会议摘要(QMSUM),自动化临床报告生成(ACI-Bench)。
忠实感知的解码策略用于抽象性摘要
- 指标: Rouge-L,Bertscore,BS-Fact,Factcc,Dae,Questeval
- 数据集: CNN/DM,XSUM
KL差引导温度采样
- 指标:对话质量检查:MNLI,SNLI,发烧,爪子,Sctail和Vitaminc的模型。摘要:在Anli和XNLI上进行了微调。
- 数据集:在对话上下文(QRECC),XLSUM中重写问题。
在修剪大型语言模型中调查幻觉,以进行抽象性摘要
- 指标:幻觉风险指标(Harim+),Summac,Summaczs,Summacconv,幻觉风险比(HRR)
- 数据集: FACTCC,Polytope,Summeval,法律合同,RCT
基于实体的知识冲突回答
- 指标: EM,记忆率。
- 数据集:带答案重叠(AO)的NQ Dev,NewsQA没有答案重叠(NAO)。
TruthX:通过在真实空间中编辑大型语言模型来减轻幻觉
- 指标: MC1/MC2/MC3分数多项选择任务; %真相,%信息,%真相*truthfulqa开放式生成任务的信息;自然问题的选择准确性,Triviaqa和Factor(新闻,专家,Wiki)。
- 数据集:真实性,自然问题,Triviaqa,因素(新闻,专家,Wiki)
问题分解改善了模型生成推理的忠诚
- 指标:准确性,最终答案截断敏感性,最终答案损坏敏感性,偏见的信息准确性更改。
- 数据集: HotPotQA,OpenBookQa,StrategyQA,真实性。
大语言模型的自相矛盾的幻觉:评估,检测和缓解
- 指标:用于检测:精确,回忆,F1。为了缓解:消除自相矛盾的比率,保留的信息事实比率增加,困惑增加。
- 数据集:自定义开放域文本生成数据集,Wikipedia实体的LLM生成的百科全书文本描述,POPQA。
使用语义熵在大语言模型中检测幻觉
- 指标:用于检测:AUROC,AURAC。
- 数据集: QA:Triviaqa,Squad,Bioasq,NQ-OPEN,SVAMP。本文随附的传记生成数据集FactualBio。
演员:视觉语言模型的跨模式对齐相似性测试
- 指标:建议演员,这是一种简单的自洽度量,试图评估多模型在跨模式之间是否一致。这在两个阶段工作,在第一阶段,模型会产生相似之处/真实的语句,比较两个输入,在第二阶段,模型将自己的输出评判为真实性。因此,一致的模型应始终将自己的输出评估为真实。
特定于域的条目
Med-Halt:大语模型的医疗领域幻觉测试
- 指标:推理幻觉测试(错误的置信度测试,以上所有测试,假问题测试),内存幻觉测试(抽象到链接测试,PMID到标题测试,标题到链接测试,链接测试,链接到标题测试);精度,分数。
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

分类法
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback 框架。
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.