détection de hallucination impressionnante
Citant ce référentiel
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
Documents et résumés
Comportements de sélection des connaissances en direction dans les LLM via l'ingénierie de la représentation basée sur SAE
- Métriques: correspondance exacte
- Ensembles de données: nqswap, macnoise
- Commentaires: La première œuvre qui utilise des autocodeurs clairsemés (SAE) pour améliorer à la fois l'utilisation des connaissances contextuelles et paramétriques.
MARS: Score de réponse au sens pour l'estimation de l'incertitude dans les LLM génératives
- Métriques: Auroc
- Ensembles de données: Triviaqa, NaturalQA, WebQA
- Commentaires: La technique d'estimation de l'incertitude LLM appelée Mars remplace la notation de probabilité normalisée en longueur en attribuant des poids plus importants aux jetons qui contribuent plus significativement à l'exactitude.
Ne concevez pas, apprenez: une fonction de notation formable pour l'estimation de l'incertitude dans les LLM génératives
- Métriques: Auroc, PRR
- Ensembles de données: Triviaqa, GSM8K, NaturalQA, WebQA
- Commentaires: La technique d'estimation de l'incertitude LLM appelée Lars entraîne un transformateur basé sur l'encodeur qui prend une requête, une génération et des probabilités de jeton comme entrée et renvoie un score d'incertitude en tant que sortie
Quantifier l'incertitude dans les réponses de tout modèle de langue et améliorer leur fiabilité
- Métriques: précision, précision / rappel / Auroc
- Ensembles de données: Triviaqa, GSM8K, SVAMP, QA de sens commun
- Commentaires: Technique d'estimation de l'incertitude de LLM appelée BSDetector qui combine la certitude d'auto-réflexion et la cohérence observée en un seul score de confiance. Détecte les réponses LLM incorrectes / hallucinées avec une haute précision / rappel, et peut également augmenter automatiquement la précision des réponses LLM.
Décore: décodage en contrastant les têtes de récupération pour atténuer les hallucinations
- Métriques: MC1, MC2, MC3 scores pour la tâche à choix multiple véridique; % Vérité,% info,% vérité * info pour la tâche de génération ouverte de vérité vérité vérité; Match exact de sous-étage pour les tâches QA du domaine ouvert (NQ-Open, NQ-Swap, Triviaqa, Popqa, Muque); Précision pour Memotrap; Précision au niveau de l'invite et au niveau de l'instruction pour Ifeval.
- Ensembles de données: véritableqa, nq-open, nq-swap, triviaqa, popqa, metrap, ifeval, musique
Tirer parti des hallucinations pour réduire la dépendance invite manuelle dans la segmentation promptable
- Métriques: Mae, f_ {bêta}, s_ {alpha}
- Ensembles de données: Chameleon, Camo, COD10K, CVC-Colondb, Kvasir, ISIC
- Commentaires: La première étude ne considère pas les hallucinations comme purement négatives, mais comme un aspect commun de la pré-formation du modèle. Contrairement aux approches précédentes qui éliminent directement les hallucinations, la promotion stimule d'abord les hallucinations pour extraire les connaissances antérieures de la pré-formation du modèle pour recueillir des informations pertinentes aux tâches dans les images. Ensuite, cela élimine les hallucinations non pertinentes pour atténuer leur impact négatif. L'efficacité de cette méthode a été démontrée dans de multiples tâches de segmentation difficile.
GraphEval: un cadre d'évaluation des hallucinations LLM basé sur les connaissances
- Métriques: précision (détection), rouge (correction)
- Ensembles de données: Sommeval, QAGS-C, QAGS-X
- Commentaires: Propose un graphique de détection d'hallucination et un cadre de corection GraphCorrect . La détection des hallucinations se fait en extraitant des triplets KG d'une sortie LLM et en comparant l'implication des triplets par rapport au contexte fourni. La correction est effectuée en prenant des triplets susceptibles de contenir des hallucinations (en moins de 0,5) invoquent ensuite un LLM pour générer un nouveau triple facturé en matière de fait par rapport à un contexte fourni. Ensuite, dans une inférence séparée, un LLM est invité à remplacer les informations de la sortie LLM non factuelle en fonction du triple corrigé. Les modèles NLI sous-jacents qui sont utilisés pour les expériences sont HHEM (DEBERTAV3), True et TrueTeacher (T5-XXL). Le LLM sous-jacent utilisé est Claude2. Les expériences finales sont menées en calculant les scores rouges entre le texte de référence et la méthode d'atténuation proposée.
Lynx: un modèle d'évaluation des hallucinations open source
- Métriques: précision
- Ensembles de données: Halubench (se compose d'environ 500 échantillons aléatoires de Covidqa, PubMedqa, Drop, FinanceBench et un autre ensemble de perturbations basé sur les échantillons récupérés)
- Commentaires: Propose un Halubench et Lynx de ressources (modèle basé sur l'instruct de LLAMA3-70BN) pour une évaluation métrique sans référence. L'accent est mis sur l'évaluation de l'hallucination instrinsèque, ce qui signifie que des réponses fidèles au contexte donné au lieu des connaissances mondiales. Des exemples hallucinés pour Halubench sont rassemblés avec GPT-4O. La formation de Lynx se fait sur 2400 échantillons de Ragtruth, Drop, Covidqa, PubMedqa avec un raisonnement généré par GPT4O dans le cadre des échantillons de formation. L'évaluation se fait en extraction d'une étiquette binaire au niveau de la réponse indiquant la fidélité de la réponse au contexte.
LLMS Hallucine Graphs aussi: une perspective structurelle
- Métriques: Distance de modification du graphique, distance spectrale, distance entre les distributions de degré.
- Ensembles de données: Distance de l'atlas graphique
- Commentaires: Cette référence présente la capacité d'inviter directement les LLM pour les structures graphiques connues. Les distances des sorties de LLMS et des graphiques de vérité au sol sont étudiées. Un classement basé sur le graphique d'édition de distance trie les LLM dans leur amplitude d'hallucination.
Hallushingbench: une suite de diagnostic avancée pour l'hallucination linguistique enchevêtrée et l'illusion visuelle dans les grands modèles de vision en langue
- Métriques: précision.
- Ensembles de données: hallunsesbench
- Commentaires: Cette référence présente des défis importants aux grands modèles avancés en langue visuelle (LVLM), tels que GPT-4V (Vision), Gemini Pro Vision, Claude 3 et Llava-1.5, en mettant l'accent sur la compréhension et l'interprétation nuancées des données visuelles. Cet article présente une nouvelle structure pour ces questions visuelles conçues pour établir des groupes de contrôle. Cette structure est capable de mener une analyse quantitative des tendances de réponse des modèles, de la cohérence logique et de divers modes de défaillance.
Détection d'hallucination unifiée pour les modèles multimodaux de grande langue
- Métriques: précision, F1 / précision / rappel.
- Ensembles de données: mhalubench
- Cadre: UNIHD
- Commentaires: Cet article propose un réglage de problème plus unifié pour la détection d'hallucination dans MLLMS, dévoile une référence de méta-évaluation Mhalubench qui englobe diverses catégories d'hallucination et tâches multimodales, et introduit UNIHD, un cadre unifié pour la détection des hallucinations dans le contenu produit par les MLMS.
FactCHD: Analyse comparative de la détection d'hallucination de conflit
- Métriques: F1 de détection, match d'explication
- Ensembles de données: factchd
- Faits saillants: Cet article présente la référence FactCHD, qui se concentre sur la détection des hallucinations conflictuelles. FactCHD intègre les connaissances factuelles à partir de plusieurs domaines, englobant un large éventail de modèles de faits, y compris des faits bruts, un raisonnement multi-HOP, une comparaison et des opérations définies. Sa caractéristique distinctive réside dans son objectif de combiner des chaînes de preuves enracinées dans des informations factuelles, permettant un raisonnement persuasif pour prédire la factualité ou la non-factualité d'une réclamation.
Attention satisfait: une lentille de satisfaction des contraintes sur les erreurs factuelles des modèles de langue
- Métriques: Auroc, points de fonctionnement de la courbe de couverture du risque
- Ensembles de données: Counterfacts, Quéries factuelles générées à partir de Wikidata
- Commentaires: Cet article modélise les requêtes factuelles en tant que problèmes de satisfaction des contraintes et constate que l'attention aux jetons de contrainte est considérablement corrélée avec l'exactitude / hallucinations factuelles.
Vrai: réévaluer l'évaluation de la cohérence factuelle
- Métriques: Auroc, sur plusieurs ensembles de données et méthodes d'évaluation
- Ensembles de données: Paws, Xsum, Qags, Frank, Sommeval, Begin, Q ^ 2, Dialfact, Fever, Vitaminc
TrueTeacher: Apprentissage de la cohérence factuelle avec des modèles de langue importants
- Métriques: Auroc, sur plusieurs ensembles de données et méthodes d'évaluation
- Ensembles de données: Xsum, Qags, Frank, Sommeval
SAC $ ^ 3 $ : Détection d'hallucination fiable dans les modèles de langage noir via la cohérence de la vérification croisée sémantique
- Métriques: précision et Auroc: QA de classification et QA à domaine ouvert
- Ensembles de données: Numéro supérieur et recherche du sénateur de Snowball Hallucination, Hotpotqa et NQ-Open QA
Élimination du poids élastique pour la génération de dialogue fidèle et abstractive
- Métriques: fidélité entre la réponse prédite et les connaissances au sol (Tab. 1) - Critic, Q², Bert F1, F1.
- Ensembles de données: Wizard-of-Wikipedia (WOW), les extensions DSTC9 et DSTC11 de Multiwoz 2.1, FaithDial - un sous-ensemble déshalluciné de WOW.
Faire confiance à vos preuves: halluciner moins avec le décodage compatible du contexte
- Métriques: cohérence factuelle des résumés: BERT-PRÉCISION ET FACTKB. Memotrap et NQ-Swap: correspondance exacte.
- Ensembles de données: Résumé: CNN-DM, XSUM. Conflits de connaissances: Memotrap, NQ-Swap.
Quand ne pas faire confiance aux modèles de langage: étudier l'efficacité des souvenirs paramétriques et non paramétriques
- Métriques: correspondance / précision exacte.
- Ensembles de données: ensembles de données QA avec entités à longue queue: POPQA, EntityQuertions; NQ.
L'augmentation de la récupération réduit les hallucinations dans la conversation
- Métriques: Génération: perplexité, chevauchement d'unigramme (F1), Bleu-4, Rouge-L. Chevauchement entre la génération et les connaissances sur lesquelles l'humain a fondé pendant la collecte des ensembles de données: connaissances F1; Ne considérez que des mots qui sont peu fréquents dans l'ensemble de données lors du calcul de F1: Rare F1.
- Ensembles de données: wow, CMU Document Footed Conversations (CMU_DOG). Source des connaissances: Dumpt de Kilt Wikipedia.
Demandez simplement l'étalonnage: stratégies pour susciter les scores de confiance calibrés à partir de modèles de langage affinés de commentaires humains
- Métriques: erreur d'étalonnage attendue (ECE) avec échelle de température (ECE-T); précision @ couverture et couverture @ précision.
- Ensembles de données: Question Répondez aux ensembles de données Évaluer les connaissances factuelles: Triviaqa, Sciq, Vériralqa.
Comment les hallucinations du modèle linguistique peuvent faire boule de neige
- Métriques: pourcentage de mauvaises réponses (hallucinations) et cas où "le modèle sait que c'est mal" (hallucinations en boule de neige).
- Ensembles de données: test de primalité, recherche du sénateur, connectivité graphique.
Amélioration des modèles linguistiques avec des gradients de politique hors ligne basés sur l'avantage
- Métriques: Évaluation de la fidélité pour la génération de réponse au niveau de la connaissance sur FaithDial - Faithcritic, Cola (fluidité), Engagement de dialogue, diversité TF-IDF pénalisée par la longueur.
- Ensembles de données: dialogue fidèle de la connaissance de la connaissance: Faithdial, un sous-ensemble plus fidèle de wow.
Génération avec confiance: Quantification de l'incertitude pour les modèles de langue de grande boîte noire
- Métriques: Auroc, Auarc, Incertitude et Métriques de confiance (Numset, DEG, EIGV).
- Ensembles de données: CoQA (ensemble de données de l'AIM de la conversation ouverte), Triviaqa et Questions naturelles (QA de livres fermés).
Problème de séquence contextualisée: scores de confiance améliorés pour la génération du langage naturel
- Métriques: Auroc, Auarc; La probabilité de séquence améliorée (probabilité logarithmique de séquence générée) utilisée dans la confiance ou le calcul de l'incertitude.
- Ensembles de données: CoQA (ensemble de données de l'AIM de la conversation ouverte), Triviaqa et Questions naturelles (QA de livres fermés).
Faithdial: une référence fidèle pour le dialogue de recherche d'informations
- Métriques: les métriques mesurent soit le degré d'hallucination des réponses générées par rapport à certaines connaissances données ou leur chevauchement avec des réponses fidèles d'or: critique, q² (F1, NLI), Bertscore, F1, Bleu, Rouge.
- Ensembles de données: Faithdial, Wow.
Neural Path Hunter: Réduire les hallucinations dans les systèmes de dialogue via la mise à la terre
- Métriques: FEQA, une métrique de fidélité; Critique, critique d'hallucination; Bleu.
- Ensembles de données: OpendialKg, un ensemble de données qui fournit des réponses de dialogue ouvertes fondées sur les chemins d'un kg.
Halueval: une référence d'évaluation des hallucinations à grande échelle
- Métriques: précision: QA, dialogue, résumé.
- Ensembles de données: Halueval, une collection d'échantillons hallucinés générés et annotés par l'homme pour évaluer les performances des LLM dans la reconnaissance des hallucinations.
Hallucinations auto-contradictoires des modèles de grands langues: évaluation, détection et atténuation
- Métriques: Après avoir généré des paires de phrases, il mesure la précision, le rappel et le score F1 dans les tâches de détection.
- Ensembles de données: 12 sujets sélectionnés de Wikipedia.
Hallucination du modèle du langage atténuant avec un alignement interactif de la connaissance des questions
- Métriques: Couverture : une métrique binaire qui détermine si toutes les valeurs de réponse en or correctes sont incluses dans la valeur générée. Hallucination : un indicateur binaire qui évalue la présence de valeurs générées qui n'existent pas dans les valeurs de question et les valeurs de mise à la terre en or. Simulator utilisateur : Simulator utilisateur en tant que modèle de langue "Oracle" avec accès aux informations d'attribution sur la réponse cible.
- Ensembles de données: Fuzzyqa, un ensemble de données basé sur HybridDialogue et Muque où des questions complexes ont été simplifiées à l'aide de Chatgpt.
Vérifiez vos faits et réessayez: Améliorer les modèles de grandes langues avec des connaissances externes et des commentaires automatisés
- Métriques: KF1, Bleu, Rouge, Chrf, Meteor, Bertscore, Bartscore, Bleurt, Longueur AVG.
- Ensembles de données: CHAT des nouvelles: DSTC7 Track 2 a été réutilisé en tant que corpus d'évaluation pour la conversation d'actualités. Service client: utilise DSTC11 Track 5 comme vitrine dans un scénario de service client conversationnel, en détendant sur DSTC9 Track 1 en incorporant des informations subjectives.
SelfCheckgpt: détection d'hallucination noire zéro-ressource pour les modèles génératifs de langue
- Mestiques: détection d'hallucination au niveau de la phrase (AUC-PR) et détection d'hallucination au niveau du passage (coefficients de corrélation de Pearson et Spearman).
- Ensembles de données: Articles Wikipedia générés de Wikibio, avec des hallucinations annotées.
L'état interne d'un LLM sait quand il ment
- Métriques: précision par thèse et moyenne.
- Ensembles de données: L'ensemble de données vraie contienne des déclarations vraies et fausses couvrant plusieurs sujets - villes, inventions, éléments chimiques, animaux, entreprises et faits scientifiques.
Chaîne de connaissances: un cadre pour ancrer des modèles de grands langues avec des bases de connaissances structurées
- Métriques: correspondance exacte.
- Ensembles de données: fièvre, hotpotqa adversaire.
Halo: Estimation et réduction des hallucinations dans les modèles de langues faibles de faible source open source
- Métriques: scores Halocheck et Selfcheckgpt; cohérence, factualité.
- Ensembles de données: questions générées et examinées dans le domaine NBA.
Un point dans le temps sauve neuf: détecter et atténuer les hallucinations de LLMS en validant la génération à faible confiance
- Métriques: précision et rappel lors de la détection des hallucinations au niveau de la phrase et au niveau du concept.
- Ensembles de données: paragraphes générés par ChatGPT couvrant 150 sujets à partir de divers domaines.
Sources d'hallucination par de grands modèles de langue sur les tâches d'inférence
- Métriques: Précision directionnelle / Holt Précision et rappel avec les insertions et remplacements d'entités.
- Ensembles de données: ensemble de données Levy / HOLT, contenant des paires de prémisses de prémisse avec une tâche formatée comme indiqué [prémisse p], est-il vrai que [hypothèse h]? , où le modèle est évalué avec des locaux aléatoires.
Hallucinations dans de grands modèles de traduction multilingue
- Métriques: taux auquel le système MT produit des hallucinations sous perturbation (fraction de la paire de langues, taux).
- Ensembles de données: Flores-101, WMT, TICO.
Citation: une clé pour créer des modèles de grande langue responsables et responsables
- Métriques: N / A
- Ensembles de données: n / a
Prévention des hallucinations zéro-ressources pour les modèles de grande langue
- Métriques: Classification des instructions hallucinatoires: AUC, ACC, F1, PEA.
- Ensembles de données: Concept-7, qui se concentre sur la classification des instructions hallucinatoires potentielles.
Rarr: Recherche et réviser ce que disent les modèles de langue, en utilisant des modèles de langue
- Métriques: attribuables aux scores des sources identifiées (AIS) avant et après l'édition.
- Ensembles de données: instructions générées en créant des entrées de tâche à partir de trois ensembles de données et en invitant différents modèles à produire des sorties de forme longue qui peuvent contenir des hallucinations - des instructions factoïdes, des chaînes de raisonnement et des dialogues à forte intensité de connaissances.
Q²: Évaluation de la cohérence factuelle dans les dialogues fondés sur les connaissances via la génération de questions et la réponse aux questions
- Métriques: Q² est une métrique elle-même, et elle est comparée au chevauchement, à la précision et au rappel du niveau de jeton F
- Ensembles de données: Wow qui contient des dialogues dans lesquels un bot doit répondre aux entrées utilisateur de manière bien informée; Topical Chat, un ensemble de données de conversation à la connaissance des connaissances humaines; Dialogue NLI, un ensemble de données basé sur la tâche de dialogue Persona-chat composée de paires de prémisse-hypothèse.
Savons-nous ce que nous ne savons pas? Étudier des questions sans réponse au-delà de Squad 2.0
- Métriques: Em sur tous, "a une réponse" et "idk"
- Ensembles de données: MNLI, Squad 2.0, ACE-WHQA.
La chaîne de vérification réduit les hallucinations dans les modèles de grande langue
- Métriques: Wikidata et Wiki-Category List: Test Precision, Nombre moyen d'entités positives et négatives (hallucinations) pour les questions basées sur la liste; Multipanqa: F1, précision, rappel; Génération à long terme de biographies: factScore.
- Ensembles de données: Wikidata, Wiki-Category List, Multipanqa, Génération à long terme de biographies.
Détection et atténuation des hallucinations en résumé multilingue
- Métriques: MFACT, Une nouvelle métrique fidèle multilingue développée à partir de quatre métriques de fidélité anglaise: Dae, Qafacteval, ENFS% et ENTFA.
- Ensembles de données: XL-Sum, un ensemble de données de résumé multilingue.
Halluciné mais factuel! Inspecter la factualité des hallucinations dans un résumé abstrait
- Métriques: Xent: Hallucination (précision, F1), factualité (précision, F1), Rouge,% du nouveau n-gram, fidélité (% enfs, feqa, dae), entfa (% factual ent.,% Factual hal.)
- Ensembles de données: un nouvel ensemble de données, Xent, pour analyser l'hallucination et la factualité des entités en résumé abstrait, composé de 800 résumés générés par BART et annotés. Ment, un ensemble d'annotations de factualité et d'hallucination pour Xsum.
- Commentaires: Tab. 2 décrit plusieurs types d'hallucinations (par exemple, factuelle, non factuelle, intrinsèque).
Permettant aux grands modèles de langue de générer du texte avec des citations
- Métriques: maîtrise (mauve), exactitude (rappel EM pour ASQA, rappel-5 pour Qampari, rappel de réclamation pour ELI5), qualité de citation (rappel de citation, précision de citation).
- Ensembles de données: ensembles de données QA tels que 1) ils contiennent des questions factuelles dans lesquelles les références sont importantes, 2) les questions nécessitent des réponses à longue durée couvrant plusieurs aspects, et 3) répondre aux questions nécessitent de synthétiser plusieurs sources: Asqa, Qampari, Eli5.
Une référence de détection d'hallucination sans référence au niveau du jeton pour la génération de texte de forme libre
- Métriques: ACC, G-Mean, BSS, AUC, Not Hallucination (P, R, F1), Hallucination (P, R, F1).
- Ensembles de données: HADES (ensemble de données de détection d'hallucination), un nouveau jeu de données de détection d'hallocage annoté au niveau sans référence au niveau des jetons obtenue en perturbant un grand nombre de segments de texte extraits du wikipedia anglais et vérifié avec des annotations à la foule.
- Commentaires: La figure 3 décrit plusieurs types d'hallucinations (connaissances spécifiques au domaine, connaissances de bon sens, incohérence ou collocation incorrecte, sans rapport avec le sujet central, conflit avec le contexte précédent, conflit avec le contexte suivant, ..)
Génération de repères pour l'évaluation des factualités des modèles linguistiques
- Métriques: pourcentage d'exemples Il attribue la plus grande probabilité à l'achèvement factuel.
- Ensembles de données: Wiki-Factor et News-Factor: Deux références d'évaluation de la factualité pour les LLM, basées sur Wikipedia et Articles de presse. Chaque exemple se compose d'un préfixe, d'une réalisation factuelle et de trois alternatives similaires mais non factuelles.
- Commentaires: Le document présente un cadre pour générer automatiquement ces ensembles de données à partir d'un corpus donné, détaillé dans la section 3.
Les modèles de langue savent-ils quand ils hallucinent des références?
- Métriques: taux d'hallucination (H%, sur 1000 titres générés)
- Ensembles de données: références générées (vraies et hallucinées) sur des sujets du système de classification informatique ACM.
Pourquoi Chatgpt ne manque-t-il pas de fournir des réponses véridiques?
- Métriques: #Correct et #Wrong Réponses, et différents types de dénombrements de défaillance: compréhension, factualité, spécificité, inférence.
- Ensembles de données: hotpotqa, boolq
- Commentaires: Cela a une belle taxonomie sur différents types d'erreurs - par exemple, compréhension , factualité , spécification , inférence .
LM vs LM: détecter les erreurs factuelles via le contre-interrogatoire
- Métriques: précision, rappel, F1 (sous différentes stratégies de contre-interrogatoire: Ays, IDK, Confiance, IC-IDK)
- Ensembles de données: Triviaqa, nq, popqa
Rho (ρ): réduction de l'hallucination dans les dialogues du domaine ouvert avec la mise à la terre des connaissances
- Métriques: Bleu, Rouge-L; FEQA, QUESTEVAL, Entitycoverage (Precision, Rappel, F1) pour estimer le degré d'hallucination - FRQA et Questeval sont des mesures basées sur la QA pour évaluer la fidélité de la production dans la tâche de génération.
- Ensembles de données: opendialkg
FactsCore: Évaluation atomique à grain fin de la précision factuelle dans la génération de texte à long terme
- Métriques: % ont soutenu les déclarations à des niveaux de fréquence variables des entités humaines.
- Ensembles de données: les biographies des personnes générées à partir de LLMS, où les annotateurs humains les divisent en faits à l'appui.
ExperTQA: Questions organisées par des experts et réponses attribuées
- Métriques: zéro-tir (P, R, F1) et affinés (P, R, F1) des étiquettes AutoAIS; FactsScore F1 scores sur les étiquettes de factualité de référence; Scores AutoAIS (attribuables aux sources identifiées).
- Ensembles de données: questions organisées par des experts dans plusieurs domaines (par exemple, anthropologie, architecture, biologie, chimie, ingénierie et technologie, soins de santé / médecine; voir Tab. 1 pour un échantillon) organisé par type de question (par exemple, question dirigée avec une seule réponse sans ambiguïté sur la façon de s'adresser à un problème.
Dola: le décodage par des couches contrastées améliore la factualité dans les modèles de grande langue
- Métriques: Truthffulqa: MC1, MC2, MC3 Scores; Facteur: News, Wiki; Ce sont des résultats à choix multiples. Génération ouverte: pour véritableqa, ils utilisent% vérité,% d'informations,% vérité * info,% rejeter; Pour les tâches COT (Stratégieqa et GSM8K), ils vont avec la précision.
- Ensembles de données: véritableqa, facteur (news / wiki), StrategyQA, GSM8K
Freshllms: Modèles de grande langue rafraîchissants avec augmentation du moteur de recherche
- Métriques: précision (stricte, détendue sur des questions en évolution rapide, des questions en évolution lente, des questions sans changement, des questions fausses impliquent des connaissances avant 2022 et depuis 2022, des questions 1-HOP et multi-HOP, et dans l'ensemble).
- Ensembles de données: FreshQA, une nouvelle référence QA avec 600 questions couvrant un large éventail de types de questions et de réponses.
Au-delà de la factualité: une évaluation complète des modèles de grands langues en tant que générateurs de connaissances
- Métriques: factualité, pertinence, cohérence, informativité, aide et validité.
- Ensembles de données: Questions naturelles, sorcier de Wikipedia.
Vérification complexe des réclamations avec des preuves récupérées dans la nature
- Métriques: précision, MAE, macro-f1, précision douce.
- Ensembles de données: RelayDecomp, qui contient 1200 affirmations complexes de Politifactl Chaque réclamation est étiquetée avec l'une des six étiquettes de véracité, un paragraphe de justification écrit par des vérifications de faits et des sous-questions annotées par des travaux antérieurs.
FELM: Évaluation de factualité comparative des modèles de grands langues
- Métriques: précision, F1 / précision / rappel.
- Ensembles de données: raisonnement, mathématiques, écriture / REC, science / technologie, Connaissances mondiales: GSM8K, Chatgpt, mathématiques, véritableqa, Quora, MMLU / HC3.
Évaluation des hallucinations dans des modèles de grande langue chinois
- Métriques: Évaluations de Humand et GPT-4.
- Ensembles de données: Halluqa (qu'ils proposent) et mentionnent la véritable, chinoisfacteval, Halueval.
Sur la fidélité et la factualité en résumé abstrait
- Métriques: Rouge, Bertscore; Évaluation humaine (identifier les portées hallucinatoires, et si elle est intrinsèque ou extrinsèque) - les hallucinations intrinsèques sont des manipulations des informations dans le document d'entrée, tandis que les hallucinations extrinsèques sont des informations qui ne sont pas directement déduites du document d'entrée. Les humains ont été invités à annoter les hallucinations intrinsèques et extrinsèques.
- Ensembles de données: xsum.
Questeval: le résumé demande une évaluation basée sur les faits
- Métriques: Questeval (proposée dans ce travail), pour tester la cohérence , la cohérence , la maîtrise et la pertinence . Rouge, bleu, météore, bertscore. Summaqa, Qags.
- Ensembles de données: Sommevale, QAGS-XSUM, Squad-V2.
QAFACTEVAL: Amélioration de l'évaluation de la cohérence factuelle basée sur l'AQ
- Métriques: QafactEval (proposé dans ce travail), mesurer la sélection des réponses, la génération de questions, la réponse aux questions, le chevauchement des réponses et le filtrage / la réponse.
- Ensembles de données: Summer, une collection de repères pour l'évaluation de la cohérence factuelle binaire; CGS, phrases correctes et incorrectes de CNN / DailyMail; XSF; Polytope; Factcc; Sommevale; FRANC; Qags.
Détection d'incohérence factuelle rapide et précise sur des documents longs
- Métriques: échelle (nouvelle métrique proposée dans ce travail). Comparé à Q², ANLI, Summac, F1, Bleurt, Quesval, BARTSCore, Bertscore (tableau 3).
- Ensembles de données: VRAI Benchmark et Screeneval, nouvel ensemble de données proposé dans ce travail pour évaluer l'incohérence factuelle dans les dialogues de forme longue (52 documents de SumScreen).
Comprendre la factualité dans le résumé abstrait avec Frank: une référence pour les mesures de factualité
- Métriques: Bertscore, FEQA, QGFS, DAE, FACTCC
- Ensembles de données: a proposé un nouvel ensemble de données Frank: Erreurs factuelles annotées humaines pour l'ensemble de données CNN / DM et XSUM
Vrai: réévaluer l'évaluation de la cohérence factuelle
- Métriques: Q², ANLI, Summac, Bleurt, Quesval, Factcc, Bartscore, Bertscore
- Ensembles de données: consolidation de 11 ensembles de données annotés humains différents pour la cohérence fctuelle.
Le cas curieux de la réponse hallucinatoire (ONU): trouver des vérités dans les états cachés des modèles de langue trop confiants
- Métriques: (classification) F-1, match exact, (jeton) F-1
- Ensembles de données: escouade, questions naturelles, musique
- Commentaires: Ce modèle d'article explore la gestion par LLMS des questions (non) responsables dans un cadre fermé, à savoir répondre à une question basée sur un passage donné, où le passage n'a pas la réponse. Le document montre que malgré la tendance des LLMS à halluciner des réponses contextuelles, plutôt que d'indiquer qu'ils ne peuvent pas répondre à la question, ils possèdent une compréhension interne de la réponse (non) de la question.
Les androïdes savent-ils qu'ils ne rêvent que de moutons électriques?
- Métriques: (détection des hallucinations) au niveau de la réponse F1, match de crédit partiel au niveau du niveau Span F1
- Ensembles de données: CNN Dailymail, Convvever et E2E, étiquetés par synthèse, édités synthétiquement, convaincus pour les hallucinations
- Commentaires: Les modèles de langue savent quand ils sont hallucinés, et nous pouvons former des sondes sur les états cachés LLM pendant le décodage pour les détecter de manière fiable.
La correction avec le retour en arrière réduit les hallucinations en résumé
- Métriques: AlignesCore, FactCC, BS-FACT, ROUGE-L
- Ensembles de données: CNN / DM, XSUM, salle de rédaction
Détection d'hallucination à grains fins et montage pour les modèles de langue
- Métriques: précision, rappel, F1.
- Ensembles de données: ensemble de données de détection / modification des hallucinations fines personnalisées pour divers types d'hallucinations (factuelles): entité, relation, contradictoire, inventé, subjectif, invériable.
LLMS en tant que raisonneurs factuels: idées des repères existants et au-delà
- Métriques: précision pour divers types d'erreur - exemples positifs, échange de date, échange d'entité, phrases niées, échange de nombres, échange de pronom.
- Ensembles de données: ils proposent des résumés, une référence de détection d'incohérence à 10 domaines.
Évaluation de la cohérence factuelle de la résumé de texte abstrait
- Métriques: ils proposent FactCC, une métrique qui mesure la cohérence factuelle de la résumé de texte abstrait (intuition: un résumé est en fait cohérent s'il contient les mêmes faits que le document source)
- Ensembles de données: CNN / DM pour générer des données de formation; MNLI et fièvre pour les modèles de formation. Expériences humaines pour l'évaluation des affirmations concernant les articles CNN / DM.
Résumé: Révisiter les modèles basés sur le NLI pour la détection d'incohérence en résumé
- Métriques: chaque ensemble de données est livré avec ses mesures (par exemple, Cogensumm utilise une mesure basée sur RERANKING; XSUMFAITH, SUMVAL et FRANK proposent plusieurs mesures et analysent comment elles sont en corrélation avec les annotations humaines; etc.) - Pour le résumé, les auteurs proposent l'utilisation d'une précision équilibrée.
- Ensembles de données: ils proposent un résumé (cohérence sommaire), une référence composée de six grands ensembles de données de détection d'incohérence: Cogensumm, Xsumfaith, Polytope, Factcc, Summeval et Frank.
Sur l'origine des hallucinations dans les modèles conversationnels: est-ce les ensembles de données ou les modèles?
- Métriques: annotations expertes et non experte: hallucination partielle, impatience, hallucination, Unopocop, générique (chacune de ces catégories a des sous-classes plus fines - voir par exemple, Fig. 2) - les annotations suivent les taxonomies Begin et VRM.
- Ensembles de données: références conversationnelles à la connaissance des connaissances: Wizard of Wikipedia (WOW), CMU-Dog et TopicalChat - des ensembles de données composés de dialogues entre deux haut-parleurs où l'objectif est de communiquer des informations sur des sujets particuliers tandis que les locuteurs sont présentés avec un extrait de connaissances pertinent pour le virage actuel.
Enseigner les modèles de langue pour halluciner moins avec des tâches synthétiques
- Métriques: taux d'hallucination dans plusieurs paramètres (original, avec message système optimisé, avec des poids LLM complets, avec des données synthétiques ou avec des mélanges de données synthétiques et de référence); Bleu, Rouge-1, Rouge-2, Rouge-l.
- Ensembles de données: Recherche-RECHERCHE-RECHERCHE (MS MARCO), Réunion Résumé (QMSUM), Génération de rapports cliniques automatisés (ACI-Bench).
Stratégies de décodage de la fidélité pour le résumé abstractif
- Métriques: Rouge-L, Bertscore, BS-FACT, FACTCC, DAE, QUESTEVAL
- Ensembles de données: CNN / DM, XSUM
Échantillonnage de température guidé par la divergence KL
- Métriques: QA conversationnel: modèles affinés sur MNLI, SNLI, fièvre, pattes, sctail et vitaminc. Résumé: Modèles ajustés sur Anli et Xnli.
- Ensembles de données: Réécriture de questions dans le contexte conversationnel (QRECC), xlsum.
Enquêter sur les hallucinations dans des modèles de grand langage élagués pour un résumé abstractif
- Métriques: Hallucination Risk Metrics (HARIM +), Summer, Summaczs, SummacConv, Hallucination Risk Ratio (HRR)
- Ensembles de données: factcc, polytope, sommevale, contrats juridiques, ECR
Les connaissances fondées sur les entités sont confrontées à la réponse à la question
- Métriques: EM, Ratio de mémorisation.
- Ensembles de données: NQ Dev with Answer Overlap (AO) et sans réponse (NAO), NewsQA.
TruthX: soulager les hallucinations en modifiant de grands modèles de langue dans un espace véridique
- Métriques: scores MC1 / MC2 / MC3 pour la tâche à choix multiples de vérité; % Vérité,% info,% vérité * info pour la tâche de génération ouverte de véritéffulqa; Précision de choix pour les questions naturelles, triviaqa et facteur (nouvelles, experte, wiki).
- Ensembles de données: véritableqa, questions naturelles, triviaqa, facteur (nouvelles, experte, wiki)
La décomposition des questions améliore la fidélité du raisonnement généré par le modèle
- Métriques: précision, sensibilité à la troncature de réponse finale, sensibilité à la corruption de réponse finale, changement de précision du contexte biaisé.
- Ensembles de données: hotpotqa, openbookqa, stratégieqa, véritableqa.
Hallucinations auto-contradictoires des modèles de grands langues: évaluation, détection et atténuation
- Métriques: pour la détection: précision, rappel, F1. Pour l'atténuation: le rapport de l'auto-contradiction supprimée, le rapport des faits informatifs conservés, la perplexité a augmenté.
- Ensembles de données: ensemble de données de génération de texte ouverts personnalisés, descriptions de texte encyclopédicales générées par LLM pour les entités Wikipedia, POPQA.
Détection des hallucinations dans des modèles de grande langue en utilisant l'entropie sémantique
- Métriques: pour la détection: Auroc, Aurac.
- Ensembles de données: QA: Triviaqa, Squad, Bioasq, NQ-Open, Svamp. FactualBio, un ensemble de données de génération de biographie, accompagnant cet article.
CAST: Test de similarité d'alignement intermodal pour les modèles de langage de vision
- Métriques: Proposer Cast, une métrique simple d'auto-cohérence qui cherche à évaluer si les modèles multimodaux sont cohérents entre les modalités. Cela fonctionne en deux étapes, dans la première étape, les modèles génèrent des similitudes / des déclarations vraies comparant deux entrées, et dans la deuxième étape, le modèle juge sa propre sortie pour la véracité. Un modèle cohérent doit donc toujours évaluer ses propres sorties comme vraies.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback cadre.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.