Fantastische Halluzinationsanerkennung
Unter Berufung auf dieses Repository
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
Papiere und Zusammenfassungen
Verhaltensweisen für Lenkkenntnisse in LLMs über SAE-basierte Repräsentationstechnik
- Metriken: genaue Übereinstimmung
- Datensätze: NQSWAP, MacNoise
- Kommentare: Die erste Arbeit, die spärliche Auto-Coder (SAEs) verwendet, um sowohl die Verwendung von kontextuellem als auch parametrischen Wissen zu verbessern.
MARS: Bedeutungsbewusstes Reaktionsbewertung für die Unsicherheitsschätzung bei generativen LLMs
- Metriken: Auroc
- Datensätze: Triviaqa, Naturalqa, Webqa
- Kommentare: Die LLM-Unsicherheitsschätzungstechnik namens Mars ersetzt die Länge-oralisierte Wahrscheinlichkeitsbewertung, indem es Token zugewiesen wird, die mehr zur Korrektheit beitragen.
Entwerfen Sie nicht, lernen Sie: Eine trainierbare Bewertungsfunktion für die Unsicherheitsschätzung in generativen LLMs
- Metriken: Auroc, prr
- Datensätze: Triviaqa, GSM8K, Naturalqa, Webqa
- Kommentare: Die LLM-Unsicherheitsschätzungstechnik namens Lars trainiert einen auf Encoderbasis basierenden Transformator, der eine Abfrage-, Generations- und Token-Wahrscheinlichkeiten als Eingabe nimmt und einen Unsicherheitswert als Ausgabe zurückgibt
Quantifizierung der Unsicherheit in Antworten aus jedem Sprachmodell und Verbesserung ihrer Vertrauenswürdigkeit
- Metriken: Genauigkeit, Präzision/Rückruf/AUROC
- Datensätze: Triviaqa, GSM8K, SVAMP, Common-Sense-QA
- Kommentare: Die LLM-Unsicherheitsschätzungstechnik bezeichnet BSDETECTOR, die die Selbstreflexionssicherheit und die Beobachtung der Konsistenz zu einem einzigen Konfidenzwert kombiniert. Erkennt falsche/halluzinierte LLM -Antworten mit hoher Präzision/Rückruf und kann auch die Genauigkeit der LLM -Antworten automatisch steigern.
Decore: Decodierung durch kontrastierende Abrufköpfe zur Minderung der Halluzinationen
- Metriken: MC1, MC2, MC3 Scores für Wahrheits-Multiple-Choice-Aufgabe; %Wahrheit, %Info, %Wahrheit*Info für die Aufgabe der offenen Generation von TruthfulQa; Subspan exakte Übereinstimmung für die Open-Domain-QA-Aufgaben (NQ-Open, NQ-Swap, Triviaqa, Popqa, Musique); Genauigkeit für Memotrap; Genauigkeit auf Anlehnung und Anweisungsniveau für IFEVAL.
- Datensätze: Truthfulqa, NQ-Open, NQ-Swap, Triviaqa, Popqa, Memotrap, Ifeval, Musique
Nutzung von Halluzinationen, um die manuelle schnelle Abhängigkeit bei der promptraten Segmentierung zu verringern
- Metriken: Mae, F_ {Beta}, S_ {Alpha}
- Datensätze: Chameleon, Camo, Cod10K, CVC-Colondb, Kvasir, ISIC
- Kommentare: Die erste Studie betrachtet Halluzinationen nicht als rein negativ, sondern als häufiger Aspekt des Modells vor dem Training. Im Gegensatz zu früheren Ansätzen, die Halluzinationen direkt beseitigen, stimuliert Promac Halluzinationen zunächst, um das Vorkenntnis vom Modell vor der Ausbildung zu ermitteln, um aufgabenrelevante Informationen in Bildern zu sammeln. Dann beseitigt es irrelevante Halluzinationen, um ihre negativen Auswirkungen zu mindern. Die Wirksamkeit dieser Methode wurde bei mehreren herausfordernden Segmentierungsaufgaben nachgewiesen.
GraphVal: Ein Wissensgraf-basierter LLM-Halluzinationsbewertungsrahmen
- Metriken: Genauigkeit (Erkennung), Rouge (Korrektur)
- Datensätze: Summoval, QAGS-C, QAGS-X
- Kommentare: Schlagen Sie eine Halluzinationserkennung Grapheval und Corection Framework GraphCorrect vor. Die Halluzinationserkennung erfolgt durch Extrahieren von KG -Tripel aus einer LLM -Ausgabe und des Vergleichs der Dreifach in Bezug auf den bereitgestellten Kontext. Die Korrektur erfolgt durch die Einnahme von Dreier, die wahrscheinlich Halluzinationen enthalten (mit unter 0,5 miteinander verbunden sind), und fordern dann einen LLM auf, ein neues, faktiell korrektes Dreifach in Bezug auf einen bereitgestellten Kontext zu erzeugen. Anschließend wird in einem separaten Inferenzpass ein LLM aufgefordert, die Informationen in der nicht-faktischen LLM-Ausgabe basierend auf dem korrigierten Triple zu ersetzen. Zugrunde liegende NLI-Modelle, die für Experimente verwendet werden, sind Hhem (Debertav3), True und Truteacher (T5-XXL). Das zugrunde liegende LLM ist Claude2. Die endgültigen Experimente werden durchgeführt, indem Rouge -Scores zwischen Referenztext und der vorgeschlagenen Minderungsmethode berechnet werden.
Lynx: Ein Open -Source -Halluzinationsbewertungsmodell
- Metriken: Genauigkeit
- Datensätze: Halubench (besteht aus ~ 500 Zufallsproben von Covidqa, PubMedqa, Drop, FinanceBench und einem weiteren Satz von Störungen basierend auf den abgerufenen Proben)
- Kommentare: Schlägt ein Halubch und Lynx (LLAMA3-70BN-ISTRECT-Basis) für eine referenzfreie metrische Bewertung vor. Der Fokus liegt auf der Bewertung der instrinsischen Halluzination, was bedeutet, dass Antworten dem angegebenen Kontext anstelle von Weltwissen treu sind. Hallukinierte Beispiele für Halubch werden mit GPT-4O gesammelt. Das Training von Lynx erfolgt an 2400 Proben von Ragtruth, Drop, Covidqa, PubMedqa mit GPT4O -Erzeugung im Rahmen der Trainingsmuster. Die Bewertung erfolgt durch Extrahieren eines Binäretiketts auf Reaktionsebene, was auf die Treue der Reaktion zum Kontext hinweist.
LLMs Halluzinat auch Grafiken: eine strukturelle Perspektive
- Metriken: Grafikbearbeitungsabstand, Spektralabstand, Abstand zwischen Gradverteilungen.
- Datensätze: Graph Atlas -Entfernung
- Kommentare: Dieser Benchmark bietet die Fähigkeit, LLMs für bekannte Grafikstrukturen direkt fortzusetzen. Entfernungen von den Ausgängen von LLMs und der Grundwahrheitsgrafiken werden untersucht. Ein Ranking basierend auf Grafik bearbeiten Distanz sortiert LLMs in ihrer Halluzinationsamplitude.
HallusionBench: Eine fortschrittliche diagnostische Suite für verstrickte Sprachhalluzination und visuelle Illusion in großen Sehvermögensmodellen
- Metriken: Genauigkeit.
- Datensätze: HallusionBench
- Kommentare: Dieser Benchmark stellt bedeutende Herausforderungen für fortgeschrittene große visuellsprachige Modelle (LVLMs) wie GPT-4V (Vision), Gemini Pro Vision, Claude 3 und LLAVA-1.5 auf, indem sie das nuancierte Verständnis und die Interpretation visueller Daten hervorheben. In diesem Artikel wird eine neuartige Struktur für diese visuellen Fragen vorgestellt, die zur Errichtung von Kontrollgruppen konzipiert werden. Diese Struktur ist in der Lage, eine quantitative Analyse der Reaktionstendenzen der Modelle, der logischen Konsistenz und verschiedener Fehlermodi durchzuführen.
Einheitliche Halluzinationserkennung für multimodale Großsprachenmodelle
- Metriken: Genauigkeit, F1/Präzision/Rückruf.
- Datensätze: Mhalubch
- Rahmen: Unihd
- Kommentare: In diesem Artikel wird eine einheitlichere Problemeinstellung für die Halluzinationserkennung in MLLMs vorgeschlagen, einen Meta-Evaluierungsbenchmark Mhalubch enthüllt, der verschiedene Halluzinationskategorien und multimodale Aufgaben umfasst und Unihd einführt, einen einheitlichen Rahmen für die Erkennung von Halluzinationen in den von MLLMS produzierten Inhalten.
FACTCHD: Benchmarking Fact-Conflicing Halluzinationserkennung
- Metriken: F1 der Erkennung, Erklärung Match der Erklärung
- Datensätze: factChd
- Highlights: Dieses Papier führt den Faktenverzeichnis, der sich auf die Erkennung von Tatsachenkonflikten Halluzinationen konzentriert. FactChd integriert Faktenwissen aus mehreren Domänen und umfasst eine breite Palette von Faktenmustern, einschließlich Rohfakten, Multi-Hop-Argumentation, Vergleich und festgelegten Operationen. Das Unterscheidungsmerkmal liegt in seinem Ziel, Beweisketten zu kombinieren, die in sachlichen Informationen verwurzelt sind und überzeugendes Denken bei der Vorhersage der Tatsachen oder Nicht-Merkmal eines Anspruchs ermöglichen.
Die Aufmerksamkeit erfüllt: Eine Objektiv für Einschränkungen bei sachlichen Fehlern von Sprachmodellen
- Metriken: AUROC, Risikobedeckungskurve-Betriebspunkte
- Datensätze: Gegenfakt, sachliche Abfragen, die aus Wikidata generiert wurden
- Kommentare: Dieses Papier modelliert Sachliche Abfragen als Problem mit der Einschränkung der Unzufriedenheit und stellt fest, dass die Aufmerksamkeit auf Einschränkungen-Token signifikant mit der sachlichen Korrektheit/Halluzinationen korreliert.
Richtig: Bewertung der Bewertung der sachlichen Konsistenz neu bewerten
- Metriken: AUROC über mehrere Datensätze und Bewertungsmethoden hinweg
- Datensätze: Pfoten, Xsum, Qags, Frank, Summoval, Begin, Q^2, Dialfakt, Fieber, Vitaminc
Truteacher: Lernen der sachlichen Konsistenzbewertung mit großen Sprachmodellen
- Metriken: AUROC über mehrere Datensätze und Bewertungsmethoden hinweg
- Datensätze: Xsum, Qags, Frank, Summoval
SACK $^3 $ : Zuverlässige Halluzinationserkennung in Black-Box-Sprachmodellen über semantische Konsistenz mit semantischer Überprüfung
- Metriken: Genauigkeit und AUROC: Klassifizierungs-QA und Open-Domain-QA
- Datensätze: Primzahl und Senatorsuche von Snowball Halluzination, Hotpotqa und NQ-Open QA
Entfernung der elastischen Gewichtsentfernung für treue und abtraktive Dialoggenerierung
- Metriken: Treue zwischen vorhergesagter Reaktion und Kenntnis des Bodens-Wahrheit (Tab. 1)-Kritiker, q², Bert F1, F1.
- Datensätze: Assistent von Wikipedia (WOW), DSTC9- und DSTC11-Erweiterungen von Multiwoz 2.1, Feuchtigkeit-eine de-halluzinierte Untergruppe von WoW.
Vertrauen Sie Ihren Beweisen: Halluzinieren Sie weniger mit kontextbewusster Dekodierung
- Metriken: Tatsachenkonsistenz der Zusammenfassungen: Bert-Präzision und faktKB. Memotrap und NQ-Swap: Exakte Übereinstimmung.
- Datensätze: Zusammenfassung: CNN-DM, xsum. Wissenskonflikte: Memotrap, NQ-Swap.
Wenn nicht zu Sprachmodellen vertrauen: Untersuchung der Wirksamkeit parametrischer und nicht parametrischer Erinnerungen
- Metriken: genaue Übereinstimmung/Genauigkeit.
- Datensätze: QA-Datensätze mit Langschwanzentitäten: POPQA, EntityQuestions; Nq.
Abrufenvergrößerung reduziert die Halluzination im Gespräch
- Metriken: Generation: Verwirrung, Unigram-Überlappung (F1), Bleu-4, Rouge-L. Überlappung zwischen Generation und Wissen, über die der Mensch während der Datensatzsammlung geerdet wurde: Wissen F1; Betrachten Sie nur Wörter, die im Datensatz selten bei der Berechnung von F1: seltener F1 sind.
- Datensätze: WOW, CMU -Dokumentgenerierte Konversationen (CMU_DOG). Wissensquelle: Kilt Wikipedia Dump.
Fragen Sie einfach um Kalibrierung: Strategien zum Erlösen kalibrierter Vertrauenswerte aus Sprachmodellen, die mit menschlichem Feedback abgestimmt sind
- Metriken: Erwarteter Kalibrierungsfehler (ECE) mit Temperaturskalierung (ECE-T); Genauigkeit@Deckung und Berichterstattung@Genauigkeit.
- Datensätze: Fragen zur Beantwortung von Datensätzen zur Bewertung von Sachkenntnissen: Triviaqa, Sciq, TrutfulQa.
Wie Sprachmodell Halluzinationen Schneeball können
- Metriken: Prozentsatz der falschen Antworten (Halluzinationen) und Fällen, in denen "das Modell weiß, dass es falsch ist" (Schneeball -Halluzinationen).
- Datensätze: Primalitätstest, Senatorsuche, Grafikkonnektivität.
Verbesserung von Sprachmodellen mit vorteilhaften Offline-Richtliniengradienten
- Metriken: Evaluierung der Treue für die Erzeugung der wissensgeschenkten Reaktion auf Glühwürdigkeit-Glaube, Cola (Fluency), Dialog-Engagement, Länge-penalisierte TF-IDF-Vielfalt.
- Datensätze: Gläubiger, wissensgeweihter Dialog: Treue, eine treue Untergruppe von WOW.
Erzeugen mit Vertrauen: Unsicherheit Quantifizierung für Schwarzbox-Großsprachenmodelle
- Metriken: AUROC, AUARC, Unsicherheit und Vertrauensmetriken (Numset, Deg, Eigen).
- Datensätze: COQA (Open-Book-Konversations-QA-Datensatz), Triviaqa und natürliche Fragen (QA geschlossene Bücher).
Kontextualisierte Sequenzwahrscheinlichkeit: Verbesserte Vertrauenswerte für die Erzeugung der natürlichen Sprache
- Metriken: Auroc, Auarc; Verbesserte Sequenzwahrscheinlichkeit (logarithmische Wahrscheinlichkeit einer generierten Sequenz), die zur Konfidenz- oder Unsicherheitsberechnung verwendet wird.
- Datensätze: COQA (Open-Book-Konversations-QA-Datensatz), Triviaqa und natürliche Fragen (QA geschlossene Bücher).
Treue: Ein treuer Benchmark für den suchenden Dialog zur Informationssuchung
- Metriken: Metriken messen entweder den Grad der Halluzination erzeugter Antworten auf ein bestimmtes Wissen oder ihre Überschneidung mit goldenen treuen Antworten: Kritiker, q² (F1, NLI), Bertscore, F1, Bleu, Rouge.
- Datensätze: Treue, wow.
Nervenpfad Jäger: Reduzierung der Halluzination in Dialogsystemen über Pfad Erdung
- Metriken: FEQA, eine Treue -Metrik; Kritiker, Halluzinationskritiker; Bleu.
- Datensätze: Opendialkg, ein Datensatz, der offene Dialogantworten liefert, die auf Pfaden aus einem kg basieren.
Halueval: Ein groß angelegter Halluzinationsbewertungsbenchmark
- Metriken: Genauigkeit: QA, Dialog, Zusammenfassung.
- Datensätze: Halueval, eine Sammlung generierter und von Menschen annotierter hallukinierter Proben zur Bewertung der Leistung von LLMs bei der Erkennung von Halluzinationen.
Selbstkontradiktorische Halluzinationen großer Sprachmodelle: Bewertung, Erkennung und Minderung
- Metriken: Nach dem Generieren von Satzpaaren misst es Präzisions-, Rückruf- und F1 -Score bei Erkennungsaufgaben.
- Datensätze: 12 ausgewählte Themen aus Wikipedia.
Mildernde Sprachmodell Halluzination mit interaktiver Frage-Wissen-Ausrichtung
- Metriken: Abdeckung : Eine binäre Metrik, die bestimmt, ob alle korrekten Gold -Antwortwerte im generierten Wert enthalten sind. Halluzination : Ein binärer Indikator, der das Vorhandensein generierter Werte bewertet, die in den Fragenwerten und den goldenen Erdungswerten nicht vorhanden sind. Benutzersimulator : Benutzersimulator als "Oracle" -sprachmodell mit Zugriff auf Attributionsinformationen zur Zielantwort.
- Datensätze: Fuzzyqa, ein Datensatz basierend auf Hybriddialog und Musik, bei dem komplexe Fragen mit ChatGPT vereinfacht wurden.
Überprüfen Sie Ihre Fakten und versuchen Sie es erneut: Verbesserung großer Sprachmodelle mit externen Kenntnissen und automatisiertem Feedback
- Metriken: KF1, Bleu, Rouge, Chrf, Meteor, Bertscore, Bartscore, Bleurter, AVG Länge.
- Datensätze: News Chat: DSTC7 TRACK 2 wurde als Evaluation Corpus für Nachrichtenkonversation umgesetzt. Kundendienst: Verwendet DSTC11 Track 5 als Schaufenster in einem Konversations -Kundendienst -Szenario und erweitert DSTC9 Track 1 durch Einbeziehung subjektiver Informationen.
SelfCheckgpt: Null-Ressource-Black-Box-Halluzinationserkennung für generative Großsprachenmodelle
- Metriken: Halluzinationserkennung auf Satzebene (AUC-PR) und Halluzinationserkennung auf Durchgangsebene (Pearson und Spearmans Korrelationskoeffizienten).
- Datensätze: Generierte Wikipedia -Artikel aus Wikibio mit kommentierten Halluzinationen.
Der innere Zustand eines LLM weiß, wann es lügt
- Metriken: profische und durchschnittliche Genauigkeit.
- Datensätze: Der tatsächliche Datensatz enthält wahre und falsche Aussagen, die mehrere Themen abdecken-Städte, Erfindungen, chemische Elemente, Tiere, Unternehmen und wissenschaftliche Fakten.
Wissenskette: Ein Rahmen für die Erde von großsprachigen Modellen mit strukturierten Wissensbasen
- Metriken: genaue Übereinstimmung.
- Datensätze: Fieber, kontroverse Hotpotqa.
Halo: Schätzung und Verringerung der Halluzinationen in schwachen Großsprachenmodellen mit offener Quelle
- Metriken: Halocheck und SelfCheckgpt -Ergebnisse; Konsistenz, Tatsache.
- Datensätze: Erzeugte und überprüfte Fragen in der NBA -Domäne.
Ein Stich in der Zeit spart neun
- Metriken: Präzision und Rückruf beim Erkennen von Halluzinationen auf Satzebene und Konzeptebene.
- Datensätze: Chatgpt-generierte Absätze, die 150 Themen aus verschiedenen Domänen erstrecken.
Halluzinationsquellen durch große Sprachmodelle bei Inferenzaufgaben
- Metriken: Richtungsabgabe/Holt -Präzision und Rückruf mit Entitätsinsertionen und Ersatz.
- Datensätze: Levy/Holt-Datensatz, die Prämise-Hypothese-Paare mit einem wie angegebenen Aufgaben enthalten [Prämisse P], stimmt es, dass [Hypothese h]? , wo das Modell mit zufälligen Räumlichkeiten bewertet wird.
Halluzinationen in großen mehrsprachigen Übersetzungsmodellen
- Metriken: Rate, zu der das MT -System unter Störung Halluzinationen erzeugt (Sprachpaarfraktion, Rate).
- Datensätze: Flores-101, WMT, Tico.
Zitier
- Metriken: n/a
- Datensätze: n/a
Halluzinationsprävention von Zero-Ressourcen bei großen Sprachmodellen
- Metriken: Halluzinatorische Unterrichtsklassifizierung: AUC, ACC, F1, Erbse.
- Datensätze: Concept-7, das sich auf die Klassifizierung potenzieller halluzinatorischer Anweisungen konzentriert.
Rarr: Nachforschungen und Überarbeiten, was Sprachmodelle mithilfe von Sprachmodellen sagen
- Metriken: Die AIS -Ergebnisse (identifizierte Quellen) vor und nach der Bearbeitung zurückzuführen.
- Datensätze: Erzeugte Anweisungen, indem Taskeingaben aus drei Datensätzen erstellt und verschiedene Modelle aufgefordert werden, Langform-Outputs zu erzeugen, die Halluzinationen enthalten können-Faktoid-Anweisungen, Argumentationsketten und wissensintensive Dialoge.
Q²: Bewertung der sachlichen Konsistenz in wissensgelegenen Dialogen durch Fragengenerierung und Beantwortung von Fragen
- Metriken: q² ist selbst eine Metrik und wird mit Überlappung, Präzision und Rückruf von F1-Token-Ebene verglichen, q² ohne NLI, E2E NLI, Überlappung, Bertscore und Bleu.
- Datensätze: WOW, das Dialoge enthält, in denen ein Bot auf sachkundige Weise auf Benutzereingaben reagieren muss. Topical-Chat, ein menschlich-humaner wissensgerichtetes Gesprächsdatensatz; Dialog NLI, ein Datensatz basierend auf der Personal-Chat-Dialogaufgabe, die aus Prämisse-Hypothes-Paaren besteht.
Wissen wir, was wir nicht wissen? Studieren von unbeantwortbaren Fragen über Squad 2.0 hinaus studieren
- Metriken: Em on All, "hat Antwort" und "IDK"
- Datensätze: MNLI, Squad 2.0, Ace-whqa.
Die Kette der Verwendungskette reduziert die Halluzination in Großsprachenmodellen
- Metriken: Liste Wikidata und Wiki-Kategorie: Testgenauigkeit, durchschnittliche Anzahl positiver und negativer (Halluzinations-) Entitäten für listenbasierte Fragen; Multispanqa: F1, Präzision, Rückruf; Longform -Erzeugung von Biografien: Factscore.
- Datensätze: Wikidata, Wiki-Kategorienliste, Multispanqa, Longform-Generation von Biografien.
Erkennung und Minderung von Halluzinationen bei mehrsprachiger Zusammenfassung
- Metriken: MFACT, eine neuartige mehrsprachige treue Metrik, die aus vier englischen Treue -Metriken entwickelt wurde: DAE, QafaCteval, ENFS%und Entfa.
- Datensätze: XL-Sum, ein mehrsprachiger Zusammenfassung Datensatz.
Halluziniert aber sachlich! Überprüfung der Tatsache von Halluzinationen in der abstraktiven Zusammenfassung
- Metriken: Xent: Halluzination (Genauigkeit, F1), Fakten (Genauigkeit, F1), Rouge, % des neuartigen N-Gramms, Treue ( % ENFs, FEQA, DAE), Entfa ( % sachliche Ent., % Tatsache Hal.)
- Datensätze: Ein neuartiger Datensatz, Xent, zur Analyse der Halluzination und der Tatsache in der abstraktiven Zusammenfassung, die aus 800 von BART generierten und kommentierten Zusammenfassungen besteht. Ment, eine Reihe von Tatsachen- und Halluzinationsanmerkungen für XSUM.
- Kommentare: Registerkarte. 2 beschreibt verschiedene Arten von Halluzinationen (z. B. sachlich, nicht-faktisch, intrinsisch).
Ermöglichen, dass große Sprachmodelle Text mit Zitaten generieren
- Metriken: Fluency (Mauve), Korrektheit (EM-Rückruf für ASQA, Rückruf-5 für Qampari, Anspruchsabruf für ELI5), Zitierqualität (Citation Recall, Citation Precision).
- Datensätze: QA-Datensätze so, dass 1) sie sachliche Fragen enthalten, in denen Referenzen wichtig sind, 2) Fragen erfordern lange Textantworten, die mehrere Aspekte abdecken, und 3) Die Beantwortung der Fragen erfordert die Synthesize mehrerer Quellen: ASQA, Qampari, ELI5.
Ein Referenzfreier-Halluzinationserkennung auf Token-Ebene für freie Textgenerierung
- Metriken: ACC, G-Mean, BSS, AUC, nicht Halluzination (P, R, F1), Halluzination (P, R, F1).
- Datensätze: Hades (Halluzinationserkennungsdatensatz), ein neuartiger referenzfreier annotierter Halluzinationserkennungsdatensatz, der durch Störung einer großen Anzahl von Textsegmenten, die aus der englischen Wikipedia extrahiert und mit Crowd-Sourcing-Anmerkungen extrahiert wurden, erhalten wurden.
- Kommentare: Abb. 3 beschreibt mehrere Halluzinationstypen (domänenspezifisches Wissen, Wissenswissen, Inkohärenz oder unsachgemäße Kollokation, nicht mit dem zentralen Thema in Zusammenhang, Konflikt mit dem vorhergehenden Kontext, Konflikt mit nachfolgendem Kontext, ..)
Generieren von Benchmarks für die Tatsachenbewertung von Sprachmodellen generieren
- Metriken: Prozentsatz der Beispiele, die dem sachlichen Abschluss die höchste Wahrscheinlichkeit zugewiesen haben.
- Datensätze: Wiki-Faktor und News-Factor: Zwei neuartige Tatsachenbewertungs-Benchmarks für LLMs, basierend auf Wikipedia- und Nachrichtenartikeln. Jedes Beispiel besteht aus einem Präfix, einer sachlichen Fertigstellung und drei ähnlichen, aber nicht-fakten Alternativen.
- Kommentare: Das Papier führt ein Framework zum automatischen Generieren solcher Datensätze aus einem bestimmten Korpus vor, das in Abschnitt 3 aufgeführt ist.
Wissen Sprachmodelle, wann sie Referenzen halluzinieren?
- Metriken: Halluzinationsrate (H%, von 1000 erzeugten Titeln)
- Datensätze: Generierte (wahre und halluzinierte) Referenzen zu Themen aus dem ACM Computing -Klassifizierungssystem.
Warum fällt Chatgpt nicht in wahrheitsgemäßen Antworten?
- Metriken: #Correct- und #Wrong -Antworten und verschiedene Arten von Fehler zählen: Verständnis, Tatsachen, Spezifität, Inferenz.
- Datensätze: Hotpotqa, Boolq
- Kommentare: Dies hat eine schöne Taxonomie für verschiedene Fehlertypen - z. B. Verständnis , Fakten , Spezifität , Inferenz .
LM vs LM: Erkennen von Faktenfehlern durch Kreuzungsprüfung
- Metriken: Präzision, Rückruf, F1 (unter verschiedenen Querversuche-Strategien: AYS, IDK, Konfidenzbasiert, IC-IDK)
- Datensätze: Triviaqa, NQ, Popqa
Rho (ρ): Reduzierung der Halluzination in Open-Domänen-Dialogen mit Wissens Erdung
- Metriken: Bleu, Rouge-L; FEQA, QuesteVal, EntityCoverage (Präzision, Rückruf, F1) zur Schätzung des Halluzinationsabschlusses-FRQA und QuesteVal sind QA-basierte Metriken zur Bewertung der Treue der Ausgabe in der Erzeugungsaufgabe.
- Datensätze: Opendialkg
FACTSCORE: Feinkörnige atomare Bewertung der sachlichen Präzision in Langformtextgenerierung
- Metriken: %unterstützte Aussagen über unterschiedliche Häufigkeitsniveaus menschlicher Entitäten.
- Datensätze: Personen Biografien, die aus LLMs generiert wurden, wo menschliche Annotatoren sie in unterstützende Fakten zerlegen.
ExpertQA: Experten-abgerechte Fragen und zugeschriebene Antworten zugeschrieben
- Metriken: Zero-Shot (P, R, F1) und Feinabstimmung (P, R, F1) von Autoais-Etiketten; FACTSCORE F1 bewertet Referenzlabels; Autoais (auf identifizierte Quellen zurückzuführen) bewertet.
- Datensätze: Experten-abgerechnete Fragen über mehrere Bereiche hinweg (z. B. Anthropologie, Architektur, Biologie, Chemie, Ingenieurwesen und Technologie, Gesundheitswesen/Medizin; siehe Tab. 1 für eine Probe), die nach Fragetyp organisiert ist (z. B. gerichtete Frage mit einzelnen eindeutigen Antwort, offene geöffnete potenzielle Ambigusion, Zusammenfassung, Zusammenfassung der Informationen, Beratung, Beratung, beraten Sie, wie man sich mit einem Problem befasst.
DOLA: Decodieren durch Kontrastschichten verbessert die Sachlichkeit in großen Sprachmodellen
- Metriken: Truthffulqa: MC1, MC2, MC3 -Ergebnisse; Faktor: Nachrichten, Wiki; Dies waren Multiple-Choice-Ergebnisse. Open-End-Generation: Für Trutfulqa verwenden sie %Wahrheit, %Info, %Wahrheit*Info, %Ablehnung; Für COT -Aufgaben (StrategyQA und GSM8K) gehen sie mit Genauigkeit ein.
- Datensätze: Truthfulqa, Faktor (Nachrichten/Wiki), Strategyqa, GSM8K
Freshllms: Erfrischende große Sprachmodelle mit Suchmaschinenvergrößerung
- Metriken: Genauigkeit (strenge, entspannte sich schnell verändernde Fragen, sich langsam ändernde Fragen, nicht verändernde Fragen, falsche premise Fragen beinhalten Wissen vor 2022 und seit 2022, 1-Hop- und Multi-Hop-Fragen und insgesamt).
- Datensätze: Freshqa, ein neuer QA -Benchmark mit 600 Fragen, die ein breites Spektrum an Fragen und Antworttypen abdecken.
Jenseits der Tatsache: Eine umfassende Bewertung von Großsprachenmodellen als Wissensgeneratoren
- Metriken: Tatsache, Relevanz, Kohärenz, Informativität, Hilfe und Gültigkeit.
- Datensätze: Natürliche Fragen, Assistent von Wikipedia.
Komplexe Anspruchsüberprüfung mit in freier Wildbahn abgerufenen Beweise
- Metriken: Genauigkeit, MAE, Makrof1, Softgenauigkeit.
- Datensätze: ClaimDeComp, das 1200 komplexe Ansprüche von Politifactl enthält. Jede Behauptung wird mit einer der sechs Richtigkeitsetiketten gekennzeichnet, einem von früheren Arbeiten kommentierten Absatzabsätze, die von Erwartungsfaktenprüfung geschrieben wurden.
FELM: Benchmarking der Tatsachenbewertung großer Sprachmodelle
- Metriken: Genauigkeit, F1/Präzision/Rückruf.
- Datensätze: Argumentation, Mathematik, Schreiben/Rec, Naturwissenschaften/Tech, Weltwissen: GSM8K, Chatgpt, Math, Truthfulqa, Quora, MMLU/HC3.
Bewertung von Halluzinationen in chinesischen Großsprachenmodellen
- Metriken: Humand- und GPT-4-Bewertungen.
- Datensätze: Halluqa (die sie vorschlagen), und erwähnen Sie Truthfulqa, ChineseFacteval, Halueval.
Über Treue und Tatsache in der abstraktiven Zusammenfassung
- Metriken: Rouge, Bertscore; menschliche Bewertung (identifizieren halluzinatorische Spannweiten und ob es intrinsisch oder extrinsisch ist) - Intrinsische Halluzinationen sind Manipulationen der Informationen im Eingabedokument, während extrinsische Halluzinationen Informationen sind, die nicht direkt aus dem Eingabedokument abgeleitet werden. Die Menschen wurden gebeten, intrinsische und extrinsische Halluzinationen zu kommentieren.
- Datensätze: xsum.
QuesteVal: Summar bittet um faktenbasierte Bewertung
- Metriken: Questeval (in dieser Arbeit vorgeschlagen) für Testen auf Konsistenz , Kohärenz , Sprach- und Relevanz . Rouge, Blue, Meteor, Bertscore. Summaqa, Qags.
- Datensätze: Summe, Qags-Xsum, Squad-V2.
QAFACTEVAL: Verbesserte QA-basierte sachliche Konsistenzbewertung für die Zusammenfassung
- Metriken: QafacteVal (in dieser Arbeit vorgeschlagen), Messung der Antwortauswahl, Fragenerzeugung, Fragenbeantwortung, Beantwortung von Überlappungen und Filterung/Beantwortungsfähigkeit.
- Datensätze: Summe, eine Sammlung von Benchmarks für die Bewertung der binären sachlichen Konsistenz; CGS, korrekte und falsche Sätze von CNN/DailyMail; Xsf; Polytope; Faktc; Summval; FRANK; Qags.
Schnelle und genaue Erkennung von sachlichen Inkonsistenz über lange Dokumente
- Metriken: Skala (neue Metrik in dieser Arbeit vorgeschlagen). Verglichen mit q², ANLI, SUMP, F1, BLEURT, QuesteVal, Bartscore, Bertscore (Tabelle 3).
- Datensätze: True Benchmark und ScreeneVal, neuer Datensatz in dieser Arbeit vorgeschlagen, um die sachliche Inkonsistenz in Langform-Dialogen (52 Dokumente aus Summenscreen) zu bewerten.
Verständnis der Tatsache in der abstraktiven Zusammenfassung mit Frank: Ein Maßstab für Sachlichkeitsmetriken
- Metriken: Bertscore, FEQA, QGFS, DAE, Factcc
- Datensätze: Vorgeschlagen einen neuen Datensatz Frank: Human Annotierte sachliche Fehler für CNN/DM- und XSUM -Datensatz
Richtig: Bewertung der Bewertung der sachlichen Konsistenz neu bewerten
- Metriken: q², Anli, Summe, Bleurter, Questeval, Factcc, Bartscore, Bertscore
- Datensätze: Konsolidierung von 11 verschiedenen menschlichen annotierten Datensätzen für die filuelle Konsistenz.
Der merkwürdige Fall halluzinatorischer (UN) Verantwortlichkeitsfähigkeit: Wahrheiten in den verborgenen Zuständen von überbewussten Großsprachenmodellen finden
- Metriken: (Klassifizierung) F-1, exakte Übereinstimmung, (Token) F-1
- Datensätze: Kader, natürliche Fragen, Musik
- Kommentare: In diesen Papiermodellen wird LLMs durch die Behandlung von (un-) beantwortungsablen Fragen in einer geschlossenen Einstellung untersucht, nämlich eine Frage, die auf einer bestimmten Passage basiert, wobei die Passage nicht die Antwort hat. Das Papier zeigt, dass trotz der Tendenz von LLMs, kontextbezogene Antworten zu halluzinieren, anstatt zu sagen, dass sie die Frage nicht beantworten können, das interne Verständnis der (UN) der Frage der Frage besitzen.
Wissen Androids, dass sie nur von elektrischen Schafen träumen?
- Metriken: (Halluzinationserkennung) F1-Level-Level-Level-Level, partielle Kredit-Match F1
- Datensätze: organisch generierte und synthetisch bearbeitete CNN DailyMail, Konverver und E2E, die für Halluzinationen bezeichnet werden
- Kommentare: Sprachmodelle wissen, wann sie halluzinierend sind, und wir können Sonden auf LLM -versteckten Zuständen während der Dekodierung trainieren, um sie zuverlässig zu erkennen.
Korrektur mit Backtracking verringert die Halluzination in der Zusammenfassung
- Metriken: AlignScore, FactCC, BS-Fact, Rouge-L
- Datensätze: CNN/DM, XSUM, Newsroom
Feinkörnige Halluzinationserkennung und -bearbeitung für Sprachmodelle
- Metriken: Präzision, Rückruf, F1.
- Datensätze: benutzerdefinierte feinkörnige Halluzinationserkennung/Bearbeitung des Datensatzes für verschiedene Arten von (sachlichen) Halluzinationen: Entität, Beziehung, widersprüchlich, erfunden, subjektiv, nicht überprüfbar.
LLMs als sachliche Gründe: Erkenntnisse aus vorhandenen Benchmarks und darüber hinaus
- Metriken: Genauigkeit für verschiedene Fehlertypen - positive Beispiele, Datumstausch, Entitätstausch, negierte Sätze, Nummernaustausch, Pronomen -Swap.
- Datensätze: Sie schlagen Summithalte vor, einen 10-Domänen-Inkonsistenz-Erkennungs-Benchmark.
Bewertung der sachlichen Konsistenz der abstreibenden Textübersicht
- Metriken: Sie schlagen faktcc vor, eine Metrik, die die sachliche Konsistenz der abstrakten Textübersicht misst (Intuition: Eine Zusammenfassung ist sachlich konsistent, wenn sie dieselben Tatsachen wie das Quelldokument enthält)
- Datensätze: CNN/DM zum Generieren von Trainingsdaten; MNLI und Fieber für Schulungsmodelle. Humanbasierte Experimente zur Bewertung von Behauptungen über CNN/DM-Artikel.
SUMAC: NLI-basierte Modelle zur Inkonsistenzerkennung in der Summarisierung erneut besuchen
- Metriken: Jeder Datensatz enthält seine Metriken (z. B. Cogensumm verwendet ein erneutes Maß an basierendem Maß; Xsumfaith, Summoval und Frank schlagen mehrere Metriken vor und analysieren, wie sie mit menschlichen Annotationen korrelieren; usw.).
- Datensätze: Sie schlagen SUMPAC (Summary -Konsistenz) vor, einen Benchmark, der aus sechs großen Inkonsistenzerkennungsdatensätzen besteht: Coogensumm, Xsumfaith, Polytope, FactCC, Summeval und Frank.
Über den Ursprung der Halluzinationen in Konversationsmodellen: Sind es die Datensätze oder die Modelle?
- Metriken: Experten- und Nicht-Experten-Anmerkungen: Teilhalluzination, Entzündung, Halluzination, Entkop, Generika (jede dieser Kategorien hat mehr feinkörnige Unterklassen-siehe z. B. Abb. 2)-Annotationen folgen den Start- und VRM-Taxonomien.
- Datensätze: Kenntnisgeweihte Konversationsbenchmarks: Assistent von Wikipedia (WOW), CMU-Dog und Topicalchat-Datensätze, die aus Dialogen zwischen zwei Sprechern bestehen, in denen das Ziel darin besteht, Informationen über bestimmte Themen zu kommunizieren, während die Redner mit einem für die aktuellen Kurve relevanten Wissensnippet präsentiert werden.
Sprachmodelle unterrichten, um weniger mit synthetischen Aufgaben zu halluzinieren
- Metriken: Halluzinationsrate in mehreren Einstellungen (original, mit optimierter Systemnachricht, mit vollständigen LLM -Gewichten, mit synthetischen Daten oder mit Mischungen von synthetischen und referenzdaten); Bleu, Rouge-1, Rouge-2, Rouge-L.
- Datensätze: Search-and-Retrieve (MS Marco), Treffen mit Summarisierung (QMSUM), automatisierte klinische Berichtserzeugung (ACI-Bench).
Treuebewusste Decodierungsstrategien für die abstraktive Zusammenfassung
- Metriken: Rouge-L, Bertscore, BS-Fact, Factcc, DAE, QuesteVal
- Datensätze: CNN/DM, XSUM
KL-Divergenz Guided Temperatur Probenahme
- Metriken: Konversations-QA: Models, die auf MNLI, SNLI, Fieber, Pfoten, SCTail und Vitaminc fein abgestimmt sind. Zusammenfassung: Models, die auf Anli und Xnli abgestimmt sind.
- Datensätze: Fragen umschreiben im Konversationskontext (QRECC), XLSUM.
Untersuchung der Halluzinationen in beschnittenen Großsprachenmodellen für die abstraktive Zusammenfassung
- Metriken: Halluzinationsrisikokennzahlen (Harim+), Summe, Summenczs, Summeconv, Halluzinationsrisikoverhältnis (HRR)
- Datensätze: faktcc, polytope, summoval, rechtliche Verträge, RCT
Unternehmensbasierte Wissenskonflikte in Frage Beantwortung
- Metriken: EM, Auswendigmachungsverhältnis.
- Datensätze: NQ Dev mit Antwortüberlappung (AO) und keine Antwortüberlappung (NAO), Newsqa.
TruthX: Erleichterung von Halluzinationen durch Bearbeitung großer Sprachmodelle im wahrheitsgemäßen Raum
- Metriken: MC1/MC2/MC3-Werte für die Aufgabe der Multiple-Choice-Aufgabe von Truthffulqa; %Wahrheit, %Info, %Wahrheit*Info für die Aufgabe der offenen Generation von Truthffulqa; Auswahlgenauigkeit für natürliche Fragen, Triviaqa und Faktor (Nachrichten, Experte, Wiki).
- Datensätze: Truthfulqa, natürliche Fragen, Triviaqa, Faktor (Nachrichten, Experte, Wiki)
Die Frage der Frage verbessert die Treue des Modells für Modellgenerierter
- Metriken: Genauigkeit, endgültige Antwortempfindlichkeit, endgültige Antwortempfindlichkeit, voreingenommene Veränderung der Kontextgenauigkeit.
- Datensätze: Hotpotqa, Openbookqa, StrategyQa, Truthfulqa.
Selbstkontradiktorische Halluzinationen großer Sprachmodelle: Bewertung, Erkennung und Minderung
- Metriken: zur Erkennung: Präzision, Rückruf, F1. Für Minderung: Verhältnis der Entfernung von Selbstverträglichkeit stieg das Verhältnis informativer Tatsachen, und die Verwirrung stieg.
- Datensätze: benutzerdefinierte Text-Erzeugungsdatensatz für Open-Domain, von LLM generierte Enzyklopädische Textbeschreibungen für Wikipedia-Entitäten, POPQA.
Halluzinationen in Großsprachmodellen mithilfe semantischer Entropie erkennen
- Metriken: Zur Erkennung: AUROC, AURAC.
- Datensätze: QA: Triviaqa, Kader, Bioasq, NQ-Open, SVAMP. Faktualbio, ein Datensatz für Biographiegeneration, der dieses Papier begleitet.
Cast: Cross-Modal-Alignment-Ähnlichkeitstest für Visionsprachmodelle
- Metriken: Schlagen Sie Cast vor, eine einfache Selbstkonsistenzmetrik, die bewerten soll, ob multimodale Modelle über Modalitäten hinweg konsistent sind. Dies funktioniert in zwei Phasen, in der ersten Stufe erzeugen die Modelle Ähnlichkeiten/wahre Aussagen, in denen zwei Eingaben verglichen werden, und in der zweiten Stufe beurteilt das Modell seine eigene Ausgabe für die Wahrhaftigkeit. Ein konsistentes Modell sollte daher immer seine eigenen Ausgaben als wahr bewerten.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.