素晴らしいホリュシネーション検出
このリポジトリを引用
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
論文と要約
SAEベースの代表エンジニアリングを介したLLMSでの知識の選択行動
- メトリック:正確な一致
- データセット: NQSWAP、MacNoise
- コメント:スパース自動エンコーダー(SAE)を使用して、コンテキストとパラメトリックの知識の使用を強化する最初の作業。
火星:生成LLMの不確実性の推定の意味をアウェアする応答スコアリング
- メトリック: auroc
- データセット: Triviaqa、naturalqa、webqa
- コメント: MARSと呼ばれるLLMの不確実性推定手法は、正確性により大きく貢献するトークンに大きな重みを割り当てることにより、長さの正規の確率スコアリングに取って代わります。
設計しない、学習:生成LLMの不確実性の推定のためのトレーニング可能なスコアリング機能
- メトリック: AUROC、PRR
- データセット: Triviaqa、GSM8K、NaturalQa、WebQA
- コメント: LARSと呼ばれるLLMの不確実性推定手法は、クエリ、生成、トークンの確率を入力として取得し、出力として不確実性スコアを返すエンコーダーベースのトランスを訓練します
あらゆる言語モデルからの回答の不確実性を定量化し、その信頼性を高める
- メトリック:精度、精度/リコール/auroc
- データセット: Triviaqa、GSM8K、SVAMP、CommonSense QA
- コメント:自己反省の確実性と観察された一貫性を単一の信頼スコアに組み合わせたBSDETECTORと呼ばれるLLM不確実性推定手法。精度/リコールが高く誤った/幻覚LLM応答を検出し、LLM応答の精度を自動的に高めることもできます。
recore:検索ヘッドを対照的に解読して幻覚を軽減します
- メトリック: MC1、MC2、MC3は、TruthfulQA多重選択タスクのスコアをスコアリングします。 %真実、%情報、%真実*真実のオープンエンド生成タスクの情報。オープンドメインQAタスク(NQ-Open、NQ-Swap、Triviaqa、Popqa、Musique)のサブスパンの正確な一致。 memotrapの精度。 ifevalのプロンプトレベルおよび命令レベルの精度。
- データセット: Truthfulqa、NQ-Open、NQ-Swap、Triviaqa、Popqa、Memotrap、ifeval、Musique
幻覚を活用して、迅速なセグメンテーションにおける手動の迅速な依存関係を減らす
- メトリック:メイ、f_ {beta}、s_ {alpha}
- データセット: Chameleon、Camo、Cod10k、CVC-Colondb、Kvasir、ISIC
- コメント:最初の研究は、幻覚を純粋に否定的であると見なすのではなく、モデルの事前トレーニングの共通の側面と見なしています。幻覚を直接排除する以前のアプローチとは異なり、PROMACは最初に幻覚を刺激して、モデルの事前トレーニングから事前知識を採掘して、画像にタスク関連情報を収集します。次に、無関係な幻覚を排除して、彼らのマイナスの影響を緩和します。この方法の有効性は、複数の挑戦的なセグメンテーションタスクで実証されています。
Grapheval:知識 - グラフベースのLLM幻覚評価フレームワーク
- メトリック:精度(検出)、ルージュ(修正)
- データセット: Summeval、QAGS-C、QAGS-X
- コメント:幻覚検出GraphevalおよびCorection Framework GraphCorrectを提案します。幻覚の検出は、LLM出力からkgトリプルを抽出し、提供されたコンテキストに対するトリプルの誘惑を比較することによって行われます。修正は、幻覚を含む可能性のあるトリプルを採取することによって行われます(0.5未満の含意)は、LLMに提供されたコンテキストに関して新しい、事実上正しいトリプルを生成するように促します。その後、個別の推論パスで、LLMは、修正されたトリプルに基づいて非操作LLM出力の情報を置き換えるように求められます。実験に使用される基礎となるNLIモデルは、 HHEM (DEBERTAV3)、 True 、 Trueteacher (T5-XXL)です。使用される基礎となるLLMはclaude2です。最終実験は、参照テキストと提案された緩和方法の間のルージュスコアを計算することにより実施されます。
Lynx:オープンソースの幻覚評価モデル
- メトリック:精度
- データセット: Halubench(Covidqa、PubMedqa、Drop、FinanceBenchの〜500のランダムサンプルで構成されています。
- コメント:参照なしのメトリック評価のために、リソースのハルベンチとリンクス(LLAMA3-70bn instructベースのモデル)を提案します。焦点は、機内の幻覚評価にあります。つまり、世界の知識ではなく、与えられた文脈に忠実な答えを意味します。 Halubenchの幻覚の例は、GPT-4Oで収集されます。 Lynxのトレーニングは、Ragtruth、Drop、Covidqa、PubMedqaからGPT4Oの2400サンプルで行われ、トレーニングサンプルの一部として推論が生成されました。評価は、コンテキストに対する応答の忠実さを示す応答レベルのバイナリラベルを抽出することによって行われます。
LLMS幻覚グラフも:構造的視点
- メトリック:グラフ編集距離、スペクトル距離、程度分布間の距離。
- データセット:グラフアトラス距離
- コメント:このベンチマークは、既知のグラフ構造のLLMSを直接促す機能を示しています。 LLMSおよびグラウンドトゥルースグラフの出力からの距離が研究されています。グラフ編集距離に基づくランキングは、幻覚振幅のLLMをソートします。
HallusionBench:大規模なビジョン言語モデルにおける絡み合った言語の幻覚と視覚的幻想のための高度な診断スイート
- メトリック:精度。
- データセット: HallusionBench
- コメント:このベンチマークは、視覚データの微妙な理解と解釈を強調することにより、GPT-4V(Vision)、Gemini Pro Vision、Claude 3、Llava-1.5など、高度な大規模な視覚言語モデル(LVLMS)に大きな課題を提示します。このペーパーでは、コントロールグループを確立するために設計されたこれらの視覚的質問の新しい構造を紹介します。この構造は、モデルの応答傾向、論理的一貫性、およびさまざまな障害モードの定量分析を実施できます。
マルチモーダルの大手言語モデルの統一幻覚検出
- メトリック:精度、F1/精度/リコール。
- データセット: mhalubench
- フレームワーク: UNIHD
- コメント:このホワイトペーパーでは、MLLMSでの幻覚検出のためのより統一された問題設定を提案し、さまざまな幻覚カテゴリとマルチモーダルタスクを含むメタ評価ベンチマークMhalubenchを発表し、MLLMSによって生成されたコンテンツの幻覚を検出するための統一されたフレームワークであるUNIHDを導入します。
FACTCHD:ファクトに競合する幻覚検出のベンチマーク
- メトリック:検出のF1、説明の一致
- データセット: FactChd
- ハイライト:このペーパーでは、ファクトチードベンチマークを紹介します。これは、ファクトに潜在的な幻覚の検出に焦点を当てています。 FACTCHDは、複数のドメインからの事実の知識を統合し、生の事実、マルチホップ推論、比較、セット操作など、幅広い事実パターンを網羅しています。その際立った特徴は、実際の情報に根ざした証拠チェーンを組み合わせるという目標にあり、主張の事実または非事実性を予測する説得力のある推論を可能にします。
注意が満たされる:言語モデルの事実上の誤りに対する制約満足レンズ
- メトリック: AUROC、リスクカバー曲線動作ポイント
- データセット: Wikidataから生成されたCounterfact、事実上のクエリ
- コメント:このホワイトペーパーでは、事実上の質問を制約満足の問題としてモデル化し、制約トークンへの注意が事実の正確性/幻覚と大幅に相関することを発見します。
TRUE:事実上の一貫性評価を再評価します
- メトリック: AUROC、複数のデータセットと評価方法にわたって
- データセット: PAWS、XSUM、QAGS、FRANK、SUMMEVAL、BEGIN、Q^2、DIALFACT、FEVER、VITAMINC
Trueteacher:大規模な言語モデルで事実上の一貫性評価を学ぶ
- メトリック: AUROC、複数のデータセットと評価方法にわたって
- データセット: XSUM、QAGS、FRANK、SUMMEVAL
サック $^3 $ :セマンティック認識クロスチェックの一貫性によるブラックボックス言語モデルの信頼できる幻覚検出
- メトリック:精度とAUROC:分類QAおよびオープンドメインQA
- データセット:スノーボール幻覚、Hotpotqa、NQ-Open QAからのプライムナンバーと上院議員の検索
忠実で抽象的な対話生成のための弾性重量除去
- メトリック:予測される応答とグラウンドトゥルースの知識の間の忠実さ(表1) - 批評家、Q²、バートF1、F1。
- データセット: Wizard-of Wikipedia(wow)、Multiwoz 2.1のDSTC9およびDSTC11拡張機能 - WOWの脱ホリュチン化サブセット。
あなたの証拠を信頼する:コンテキストを意識したデコードでは、幻覚が少なくなります
- メトリック:要約の事実上の一貫性:Bert-PrecisionとFactKb。 memotrapおよびnq-swap:正確な一致。
- データセット:要約:CNN-DM、XSUM。知識の競合:memotrap、nq-swap。
言語モデルを信頼しない場合:パラメトリックおよびノンパラメトリックの記憶の有効性の調査
- メトリック:正確な一致/精度。
- データセット:長期尾エンティティを備えたQAデータセット:POPQA、EntityQuestions; NQ。
検索の増強は、会話の幻覚を減らします
- メトリック:生成:困惑、ユニグラムオーバーラップ(F1)、ブルー4、ルージュ-L。データセットコレクション中に人間が接地した知識と知識の間に重複:知識F1。 F1:レアF1を計算するときに、データセットではまれな単語のみを考慮してください。
- データセット: WOW、CMUドキュメント接地会話(CMU_DOG)。知識ソース:キルトウィキペディアダンプ。
キャリブレーションを尋ねるだけです:人間のフィードバックで微調整された言語モデルからキャリブレーションされた信頼スコアを引き出すための戦略
- メトリック:温度スケーリング(ECE-T)を備えた予想キャリブレーションエラー(ECE);精度@カバレッジとカバレッジ@精度。
- データセット:事実の知識を評価するデータセットの質問:Triviaqa、Sciq、Truthfulqa。
言語モデルの幻覚が雪だるま式になる方法
- メトリック:間違った答え(幻覚)の割合と「モデルがそれが間違っていることを知っている」(雪だるま式の幻覚)。
- データセット:プライマリティテスト、上院議員検索、グラフ接続。
アドバンテージベースのオフラインポリシーグラデーションを備えた言語モデルの改善
- メトリック:信仰者に関する知識に基づいた応答生成の忠実な評価 - 信仰批評家、コーラ(流ency)、ダイアログエンゲージメント、長さペナライズされたTF-IDF多様性。
- データセット:忠実な知識に基づいたダイアログ:Wowのより忠実なサブセットであるFaithdial。
自信を持って生成:ブラックボックスの大型言語モデルの不確実性の定量化
- メトリック: AUROC、AUARC、不確実性、信頼性メトリック(numset、deg、eigv)。
- データセット: COQA(オープンブックの会話QAデータセット)、Triviaqa、および自然な質問(クローズドブックQA)。
コンテキスト化されたシーケンスの尤度:自然言語生成のための信頼性スコアの強化
- メトリック: auroc、auarc;信頼性または不確実性の計算で使用されるシーケンスの尤度(生成されたシーケンスのログ確率)の改善。
- データセット: COQA(オープンブックの会話QAデータセット)、Triviaqa、および自然な質問(クローズドブックQA)。
Faithdial:情報を求める対話のための忠実なベンチマーク
- メトリック:メトリックは、与えられた知識に対する生成された応答の幻覚の程度を測定するか、金の忠実な反応との重複のいずれか:批評家、Q²(F1、NLI)、バートスコア、F1、ブルー、ルージュ。
- データセット: FaithDial、WOW。
ニューラルパスハンター:パス接地を介して対話システムの幻覚を減らす
- メトリック: FEQA、忠実な指標。批評家、幻覚評論家。ブルー。
- データセット: opendialkg、kgからのパスに接地されたオープンエンドのダイアログ応答を提供するデータセット。
Halueval:大規模な幻覚評価ベンチマーク
- メトリック:精度:QA、対話、要約。
- データセット: Haluevalは、幻覚を認識する際のLLMの性能を評価するための生成された人間に感染した幻覚サンプルのコレクションです。
大規模な言語モデルの自己矛盾の幻覚:評価、検出、緩和
- メトリック:文のペアを生成した後、検出タスクで精度、リコール、およびF1スコアを測定します。
- データセット: Wikipediaから選択したトピック。
インタラクティブな質問と知識のアライメントによる言語モデルの幻覚を緩和します
- メトリック:カバレッジ:すべての正しい金の回答値が生成された値に含まれているかどうかを決定するバイナリメトリック。幻覚:質問値と金の接地値に存在しない生成された値の存在を評価するバイナリインジケーター。ユーザーシミュレーター:ターゲット回答に関する帰属情報にアクセスできる「Oracle」言語モデルとしてのユーザーシミュレーター。
- データセット: fuzzyqaは、chatgptを使用して複雑な質問が簡素化されたハイブリッドディアログとミューシークに基づくデータセットです。
あなたの事実を確認してもう一度やり直してください:外部の知識と自動化されたフィードバックで大規模な言語モデルを改善する
- メトリック: KF1、ブルー、ルージュ、CHRF、Meteor、Bertscore、Bartscore、Bleurt、Avg Length。
- データセット:ニュースチャット:DSTC7トラック2は、ニュース会話のための評価コーパスとして再利用されました。カスタマーサービス:DSTC11トラック5を会話のカスタマーサービスシナリオのショーケースとして使用し、主観的な情報を組み込むことでDSTC9トラック1に拡大します。
selfecheckgpt:生成的大手言語モデルのゼロリソースブラックボックスの幻覚検出
- メトリック:文レベルの幻覚検出(AUC-PR)、および通過レベルの幻覚検出(ピアソンとスピアマンの相関係数)。
- データセット:ウィキビオから生成されたウィキペディアの記事、注釈付きの幻覚があります。
LLMの内部状態は、それがいつ嘘をついているかを知っています
- メトリック:トピックごとと平均精度。
- データセット: True-Falseデータセットには、都市、発明、化学的要素、動物、企業、科学的事実など、いくつかのトピックをカバーする真および誤った記述が含まれています。
知識の連鎖:構造化された知識ベースで大きな言語モデルを接地するためのフレームワーク
- メトリック:正確な一致。
- データセット:発熱、敵対的なHotpotqa。
ハロー:オープンソースの弱い大手言語モデルにおける幻覚の推定と削減
- メトリック: HaloCheckおよびSelfCheckGPTスコア。一貫性、事実。
- データセット: NBAドメインで質問を生成およびレビューしました。
時間のステッチは9を節約します:低信頼性の生成を検証することにより、LLMの幻覚を検出して軽減する
- メトリック:文レベルと概念レベルの幻覚を検出するときの精度とリコール。
- データセット:多様なドメインからの150のトピックにまたがるCHATGPT生成段落。
推論タスクに関する大規模な言語モデルによる幻覚の原因
- メトリック:方向性徴収/ホルト精度とエンティティの挿入と交換によるリコール。
- データセット: levy/holtデータセット、 [前提p]のようにフォーマットされたタスクを備えた前提型のハポテシスペアを含む、[仮説H]? 、モデルがランダムな前提で評価されます。
大規模な多言語翻訳モデルの幻覚
- メトリック: MTシステムが摂動下で幻覚を生成するレート(言語ペアの分数、レート)。
- データセット: Flores-101、WMT、TICO。
引用:責任ある説明責任のある大規模な言語モデルを構築するための鍵
大規模な言語モデルのゼロリソース幻覚予防
- メトリック:幻覚指導分類:AUC、ACC、F1、PEA。
- データセット: Concept-7。潜在的な幻覚指示の分類に焦点を当てています。
RARR:言語モデルを使用して、言語モデルが言うことの調査と修正
- メトリック:編集前後の識別されたソース(AIS)スコアに起因します。
- データセット: 3つのデータセットからタスク入力を作成し、異なるモデルに幻覚を含む可能性のある長い形式の出力を生成するように生成されたステートメントを生成します。ファクトイドステートメント、推論チェーン、知識集約的な対話。
Q²:質問の生成と質問の回答による知識に基づいた対話における事実上の一貫性を評価する
- メトリック: Q²はメトリック自体であり、F1トークンレベルのオーバーラップ、精度とリコール、Q²w/o nli、e2e nli、オーバーラップ、バートスコア、およびブルーと比較されます。
- データセット: BOTが知識豊富な方法でユーザー入力に応答する必要がある対話を含むWOW。 Topical-chat、人間の人間の知識に基づいた会話データセット。 Dialogue NLI、前提型のポテシスペアで構成されるペルソナチャットダイアログタスクに基づくデータセット。
わからないことを知っていますか? Squad 2.0を超えて未回答の質問を研究します
- メトリック:すべての「答え」、「idk」
- データセット: Mnli、Squad 2.0、Ace-whqa。
チェーンのヴェリシーは、大規模な言語モデルの幻覚を減らします
- メトリック: WikidataおよびWikiカテゴリリスト:テスト精度、リストベースの質問の肯定的および否定的な(幻覚)エンティティの平均数。 Multispanqa:F1、精度、リコール。伝記の長さの生成:FactScore。
- データセット: Wikidata、Wiki-Category List、Multispanqa、Longform Generation of Biographies。
多言語の要約における幻覚の検出と緩和
- メトリック: MFACT、4つの英語の忠実なメトリックから開発された新しい多言語の忠実なメトリック、DAE、QaFacteval、ENFS%、およびENTFA。
- データセット: XL-Sum、多言語要約データセット。
幻覚がありますが、事実!抽象的な要約における幻覚の事実を調べる
- メトリック: Xent:幻覚(精度、F1)、事実性(精度、F1)、ルージュ、新規N-グラムの%、忠実さ(%ENFS、FEQA、DAE)、ENTFA(%事実上のENT。、%事実上のHAL)
- データセット: BARTによって生成され、注釈付きで生成された800の要約で構成される抽象的な要約におけるエンティティの幻覚と事実性を分析するための新しいデータセット、Xent。 Xsumの事実と幻覚の注釈のセット。
- コメント:タブ。 2は、いくつかのタイプの幻覚(たとえば、事実、非事実、内因性)を概説します。
大規模な言語モデルが引用でテキストを生成できるようにします
- メトリック:流encyさ(Mauve)、正確性(ASQAのリコール、QAMPARIのリコール5、ELI5のクレームリコール)、引用品質(引用リコール、引用の精度)。
- データセット: 1)参照が重要である事実の質問を含むQAデータセット、2)質問が複数の側面をカバーする長いテキストの回答が必要であり、3)質問に答えるには、ASQA、QAMPARI、ELI5の複数のソースを合成する必要があります。
トークンレベルのリファレンスフリーの幻覚検出ベンチマークフリーフォームテキスト生成のためのベンチマーク
- メトリック: acc、g-mean、bss、auc、幻覚ではない(p、r、f1)、幻覚(p、r、f1)。
- データセット: Hades(幻覚検出データセット)、英語のウィキペディアから抽出され、群衆が供給された注釈で検証した多数のテキストセグメントを摂動することにより得られた新しいトークンレベルの参照無料注釈付き幻覚検出データセット。
- コメント:図3は、いくつかの幻覚タイプ(ドメイン固有の知識、常識的な知識、一貫性または不適切なコロケーション、中心的なトピックとは無関係、前の文脈との対立、後続の文脈との対立などの概要を示しています。
言語モデルの事実評価のためのベンチマークの生成
- メトリック:例の割合では、事実の完了に最高の確率を割り当てます。
- データセット:ウィキファクターとニュースファクター:ウィキペディアとニュース記事に基づくLLMSの2つの新しい事実性評価ベンチマーク。それぞれの例は、接頭辞、事実の完了、および3つの類似したが非事実上の代替品で構成されています。
- コメント:このペーパーでは、セクション3で詳述されている特定のコーパスからこのようなデータセットを自動的に生成するためのフレームワークを紹介します。
言語モデルは、幻覚の参照をいつ知っていますか?
- メトリック:幻覚率(H%、1000の生成されたタイトルのうち)
- データセット: ACMコンピューティング分類システムからのトピックに関する(TrueおよびHallucinated)参照を生成します。
ChatGptが真実の答えを提供するのになぜ不足しているのですか?
- メトリック: #correctおよび#wrongの回答、および異なるタイプの故障カウント:理解、事実性、特異性、推論。
- データセット: Hotpotqa、Boolq
- コメント:これには、さまざまなエラータイプなど、理解、事実性、仕様、推論について優れた分類法があります。
LM対LM:相互診察を介して事実上のエラーを検出します
- メトリック:精度、リコール、F1(異なる反対尋問戦略の下:AYS、IDK、信頼ベース、IC-IDK)
- データセット: Triviaqa、NQ、Popqa
Rho(ρ):知識の根拠を持つオープンドメインの対話における幻覚を減らす
- メトリック: bleu、rouge-l; Feqa、Questeval、EntityCoverage(Precision、Recall、F1)は幻覚度を推定するために、FRQAとQuestevalは、生成タスクの出力の忠実さを評価するためのQAベースのメトリックです。
- データセット: opendialkg
FactScore:長い形式のテキスト生成における事実の精度の細かい原子評価
- メトリック:さまざまな周波数レベルの人間エンティティにわたってサポートされているステートメントが%サポートされています。
- データセット: LLMSから生成された人々の伝記。人間のアノテーターがそれらを支持的な事実に分割します。
ExpertQA:専門家がキュレーションされた質問と帰属の回答
- メトリック: Autoaisラベルのゼロショット(P、R、F1)および微調整(P、R、F1)。 FactScore F1は、参照事実ラベルのスコアを記録します。 Autoais(識別されたソースに起因する)スコア。
- データセット:複数の分野(人類学、建築、生物学、化学、化学、工学と技術、ヘルスケア/医療、サンプルについてはタブ1を参照)にわたる専門家がキュレーションした質問(例:単一の明確な回答、潜在的に曖昧な質問、トピックの概要、または提案の概要、または提案の概要、潜在的にあいまいな質問の概要、問題
DOLA:対照的な層でデコードすると、大規模な言語モデルの事実性が向上します
- メトリック: Truthffulqa:MC1、MC2、MC3スコア。要因:ニュース、ウィキ;これらは複数選択の結果でした。オープンエンドの世代:Truthfulqaの場合、彼らは%真実、%情報、%真実*情報、%拒否を使用します。 COTタスク(StrategyQAおよびGSM8K)の場合、それらは正確に進みます。
- データセット: Truthfulqa、Factor(News/Wiki)、StrategyQA、GSM8K
flashllms:検索エンジンの拡張で大きな言語モデルをリフレッシュします
- メトリック:正確性(厳格、急速に変化する質問、遅く変化する質問、変化する質問、虚偽の質問は2022年以前および2022年以降、1ホップとマルチホップの質問、および全体的な知識を含む)を含む)。
- データセット: FreshqA、幅広い質問と回答の種類をカバーする600の質問を備えた新しいQAベンチマーク。
事実を超えて:知識ジェネレーターとしての大規模な言語モデルの包括的な評価
- メトリック:事実、関連性、一貫性、情報性、有用性、妥当性。
- データセット:自然な質問、ウィキペディアの魔法使い。
野生で取得された証拠による複雑な主張の検証
- メトリック:精度、MAE、マクロF1、ソフト精度。
- データセット: Politifactlからの1200の複雑なクレームを含むクレームデコムは、6つの真実性ラベルのいずれか、予想事実チェッカーによって書かれた正当な段落、および以前の作業によって注釈が付けられたサブクエストにラベル付けされています。
Felm:大規模な言語モデルのベンチマーク事実性評価
- メトリック:精度、F1/精度/リコール。
- データセット:推論、数学、執筆/rec、科学/技術、世界知識:GSM8K、ChatGpt、数学、Truthfulqa、Quora、MMLU/HC3。
中国の大手言語モデルの幻覚の評価
- メトリック: HumandおよびGPT-4評価。
- データセット: Halluqa(彼らが提案する)、そしてTruthfulqa、ChineseFacteval、Haluevalに言及します。
抽象的な要約における忠実さと事実について
- メトリック:ルージュ、バートスコア。人間の評価(幻覚のスパン、およびそれが固有のものか外因性であるかを特定する) -固有の幻覚は入力文書の情報の操作であり、外因性の幻覚は入力文書から直接推測できない情報です。人間は、内因性および外因性の幻覚に注釈を付けるように求められました。
- データセット: XSUM。
Questeval:要約は、事実ベースの評価を求めています
- メトリック: Questeval(この作業で提案)、一貫性、一貫性、流ency性、および関連性をテストするため。ルージュ、青、流星、バートスコア。 summaqa、qags。
- データセット: Summeval、Qags-Xsum、Squad-V2。
QAFacteval:要約のためのQAベースの事実上の一貫性評価の改善
- メトリック: QaFacteval(この作業で提案)、回答の選択、質問生成、質問の回答、回答の重複、フィルタリング/答えの測定。
- データセット: Summac、バイナリの事実の一貫性評価のためのベンチマークのコレクション。 CGS、CNN/Dailymailからの正確かつ誤った文。 XSF;ポリトープ; factcc; summeval;フランク; Qags。
長い文書にわたる高速かつ正確な事実の不一致の検出
- メトリック:スケール(この作業で提案されている新しいメトリック)。 Q²、Anli、Summac、F1、Bleurt、Questeval、Bartscore、Bertscoreと比較しました(表3)。
- データセット:真のベンチマークとスクリーン率の、この作業で提案された新しいデータセットは、長期の対話(サミングスクリーンからの52のドキュメント)の事実上の矛盾を評価します。
フランクとの抽象的な要約における事実を理解する:事実上のメトリックのベンチマーク
- メトリック: bertscore、feqa、qgfs、dae、factcc
- データセット:新しいデータセットを提案しましたフランク:CNN/DMおよびXSUMデータセットの人間の注釈付き事実誤差
TRUE:事実上の一貫性評価を再評価します
- メトリック: Q²、Anli、Summac、Bleurt、Questeval、Factcc、Bartscore、Bertscore
- データセット: FCTUal一貫性のための11の異なるヒト注釈付きデータセットの統合。
幻覚(un)の答えの好奇心use盛なケース:自信過剰な大手言語モデルの隠された状態で真実を見つける
- メトリック:(分類)F-1、正確な一致、(トークン)F-1
- データセット:分隊、自然な質問、Musique
- コメント:このペーパーモデルでは、閉店設定での(un)回答可能な質問のLLMSの処理、つまり、パッセージに答えがない特定の箇所に基づいて質問に答えることを調査します。この論文は、LLMが質問に答えることができないと述べるのではなく、文脈的な答えを幻覚させる傾向にもかかわらず、質問の(un)答え性について内部的な理解を持っていることを示しています。
Androidsは、彼らが電気羊を夢見ているだけだと知っていますか?
- メトリック:(幻覚検出)応答レベルのF1、スパンレベルの部分クレジットマッチF1
- データセット: CNN Dailymail、Convfever、およびE2Eの有機生成および合成編集された幻覚のスパンでラベル付け
- コメント:言語モデルは、それらが幻覚を起こしていることを知っており、デコード中にLLM隠された状態で確実に検出することをトレーニングできます。
バックトラッキングによる修正は、要約の幻覚を減らします
- メトリック: AlignScore、FactCC、BS-Fact、Rouge-L
- データセット: CNN/DM、XSUM、ニュースルーム
言語モデルの微細に輝く幻覚検出と編集
- メトリック:精度、リコール、F1。
- データセット:さまざまなタイプの(事実上の)幻覚のカスタムファイングレインの幻覚検出/編集データセット:エンティティ、関係、矛盾、発明、主観的、検証不可。
事実上の推論者としてのLLMS:既存のベンチマークからの洞察およびそれ以降
- メトリック:さまざまなエラータイプの精度 - ポジティブな例、日付スワップ、エンティティスワップ、否定された文、数字スワップ、代名詞スワップ。
- データセット: 10ドメインの矛盾検出ベンチマークであるSumMeditsを提案しています。
抽象的なテキスト要約の事実上の一貫性を評価します
- メトリック:抽象的なテキスト要約の事実上の一貫性を測定するメトリックであるFACTCCを提案します(直観:要約は、ソースドキュメントと同じ事実を含む場合、事実上一貫性があります)
- データセット:トレーニングデータを生成するためのCNN/DM。トレーニングモデルのMNLIと熱。 CNN/DMの記事に関する主張に関する評価のための人間ベースの実験。
Summac:要約における不一致の検出のためのNLIベースのモデルの再訪
- メトリック:各データセットにはメトリックが付属しています(たとえば、Cogensummは再ランキングベースの尺度を使用します; Xsumfaith、Summeval、およびFrankはいくつかのメトリックを提案し、それらが人間の注釈とどのように相関するかを分析します。
- データセット:彼らは、Cogensumm、Xsumfaith、Polytope、FactCC、Summeval、およびFrankの6つの大規模な矛盾検出データセットで構成されるベンチマークであるSummac(概要の一貫性)を提案します。
会話モデルの幻覚の起源について:それはデータセットですか、それともモデルですか?
- メトリック:専門家と非専門家の注釈:部分的な幻覚、誘惑、幻覚、アンクープ、ジェネリック(これらのカテゴリにはそれぞれがより微細なサブクラスがあります - 例:図2を参照) - 注釈は開始とVRMの分類法に従います。
- データセット:知識に基づいた会話のベンチマーク:ウィキペディア(WOW)、CMU-DOG、およびTopicalChatのウィザード - 特定のトピックに関する情報を伝えることが目標である2つのスピーカー間の対話からなるデータセットは、スピーカーが現在のターンに関連する知識のスピネットを提示します。
合成タスクでは言語モデルを幻覚に導きます
- メトリック:いくつかの設定での幻覚率(オリジナル、最適化されたシステムメッセージ、完全なLLMウェイト、合成データ、または合成データと参照データの混合物)。 Bleu、Rouge-1、Rouge-2、Rouge-L。
- データセット: Search-and-Retrieve(MS Marco)、Meeting Summarisation(QMSUM)、自動臨床報告生成(ACIベンチ)。
抽象的な要約のための忠実なデコード戦略
- メトリック: Rouge-L、Bertscore、BS-Fact、FactCC、Dae、Questeval
- データセット: CNN/DM、XSUM
KL-Divergenceガイド温度サンプリング
- メトリック:会話QA:MNLI、SNLI、発熱、足、Sctail、およびVitamincで微調整されたモデル。要約:AnliとXnliで微調整されたモデル。
- データセット:会話のコンテキスト(QRECC)、XLSUMでの質問の書き換え。
抽象的要約のための剪定された大手言語モデルの幻覚の調査
- メトリック:幻覚リスクメトリック(Harim+)、Summac、Summaczs、Summacconv、幻覚リスク比(HRR)
- データセット: FactCC、PolyTope、Summeval、法的契約、RCT
エンティティベースの知識は、問題の回答で矛盾します
- メトリック: EM、記憶率。
- データセット:回答オーバーラップ(AO)と回答なしのオーバーラップ(NAO)を備えたNQ DEV、NewsQA。
TruthX:真実の空間で大きな言語モデルを編集することにより幻覚を軽減する
- メトリック: Truthffulqa多重選択タスクのMC1/MC2/MC3スコア。 %真実、%情報、%Truth*Truthffulqaオープンエンドジェネレーションタスクの情報。自然な質問、トリビアカ、ファクター(ニュース、エキスパート、ウィキ)の選択精度。
- データセット: Truthfulqa、自然な質問、Triviaqa、Factor(ニュース、専門家、Wiki)
質問分解は、モデル生成された推論の忠実さを改善します
- メトリック:精度、最終回答の切り捨て感度、最終的な回答腐敗感受性、バイアスコンテキストの精度の変化。
- データセット: hotpotqa、openbookqa、Strategyqa、Truthfulqa。
大規模な言語モデルの自己矛盾の幻覚:評価、検出、緩和
- メトリック:検出用:精度、リコール、F1。緩和の場合:自己矛盾の比率は、有益な事実の比率を保持し、困惑を増加させました。
- データセット:カスタムオープンドメインテキスト生成データセット、WikipediaエンティティのLLM生成百科事典テキストの説明、POPQA。
セマンティックエントロピーを使用して、大規模な言語モデルの幻覚を検出します
- メトリック:検出用:Auroc、Aurac。
- データセット: QA:Triviaqa、Squad、Bioasq、NQ-Open、Svamp。この論文に付随する伝記生成データセットであるFactualbio。
キャスト:ビジョン言語モデルのクロスモーダルアライメント類似性テスト
- メトリック:マルチモーダルモデルがモダリティ全体で一貫しているかどうかを評価しようとする単純な自己整合メトリックであるCASTを提案します。これは2つの段階で機能し、第1段階では、モデルは2つの入力を比較した類似性/真のステートメントを生成し、第2段階では、モデルは真実性のために独自の出力を判断します。したがって、一貫したモデルは、常にそれ自体の出力を真であると評価する必要があります。
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.