Detección impresionante de la calucinación
Citando este repositorio
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
Documentos y resúmenes
Comportamientos de selección de conocimiento de dirección en LLM a través de la ingeniería de representación basada en SAE
- Métricas: Match exacta
- Conjuntos de datos: nqswap, macnoise
- Comentarios: El primer trabajo que utiliza autoengodines de escasos (SAE) para mejorar tanto el uso del conocimiento contextual y paramétrico.
MARS: Significado de respuesta al puntaje de respuesta para la estimación de incertidumbre en LLM generativos
- Métricas: Auroc
- Conjuntos de datos: Triviaqa, Naturalqa, Webqa
- Comentarios: La técnica de estimación de incertidumbre de LLM llamada Marte reemplaza la puntuación de probabilidad normalizada de longitud al asignar mayores pesos a los tokens que contribuyen más significativamente a la corrección.
No diseñe, aprenda: una función de puntuación entrenable para la estimación de incertidumbre en LLM generativos
- Métricas: Auroc, PRR
- Conjuntos de datos: Triviaqa, GSM8K, Naturalqa, Webqa
- Comentarios: La técnica de estimación de incertidumbre de LLM llamada Lars Trains Un transformador basado en codificadores que toma una consulta, generación y probabilidades de token como entrada y devuelve una puntuación de incertidumbre como salida
Cuantificar la incertidumbre en las respuestas de cualquier modelo de idioma y mejorar su confiabilidad
- Métricas: precisión, precisión/retiro/auroc
- Conjuntos de datos: Triviaqa, GSM8K, SVAMP, QA de sentido común
- Comentarios: Técnica de estimación de incertidumbre LLM llamada BSDetector que combina certeza de autorreflexión y observó la consistencia en una sola puntuación de confianza. Detecta respuestas LLM incorrectas/alucinadas con alta precisión/retiro, y también puede aumentar automáticamente la precisión de las respuestas LLM.
Decore: decodificación al contrastes cabezales de recuperación para mitigar las alucinaciones
- Métricas: puntajes MC1, MC2, MC3 para la tarea de opción múltiple de Lucinqa; %Verdad, %info, %verdad*Información para la tarea de generación abierta de verdad; Subspan exacta para las tareas de control de calidad de dominio abierto (NQ-Open, NQ-SWAP, Triviaqa, Popqa, Musique); precisión para la memoria; Precisiones de nivel de solicitud y nivel de instrucción para Ifeval.
- Conjuntos de datos: Verdulqa, NQ-Open, NQ-Swap, Triviaqa, Popqa, Memotrap, Ifeval, Musique
Aprovechando alucinaciones para reducir la dependencia rápida manual en una segmentación rápida
- Métricas: mae, f_ {beta}, s_ {alfa}
- Conjuntos de datos: Camaleón, Camo, Cod10k, CVC-Colondb, Kvasir, ISIC
- Comentarios: El primer estudio no considera que las alucinaciones son puramente negativas, sino como un aspecto común del modelo previo. A diferencia de los enfoques anteriores que eliminan directamente las alucinaciones, PROMAC primero estimula las alucinaciones para extraer el conocimiento previo del modelo previo para recopilar información relevante para las tareas en las imágenes. Luego, elimina las alucinaciones irrelevantes para mitigar su impacto negativo. La efectividad de este método se ha demostrado en múltiples tareas de segmentación desafiantes.
Grapheval: un marco de evaluación de alucinación LLM basado en el conocimiento de conocimiento
- Métricas: precisión (detección), Rouge (corrección)
- Conjuntos de datos: Summeval, QAGS-C, QAGS-X
- Comentarios: Propone una detección de alucinación Grapheval y Corection Framework GraphCorrect . La detección de alucinación se realiza extrayendo Kg Triples de una salida de LLM y comparando la implicación de los triples con respecto al contexto proporcionado. La corrección se realiza tomando triples que probablemente contengan alucinaciones (implican por debajo de 0.5), lo que lleva a un LLM a generar un triple nuevo y concurrido con respecto a un contexto proporcionado. Posteriormente, en un pase de inferencia separada, se solicita a un LLM que reemplace la información en la salida de LLM no fáctica en función del triple corregido. Los modelos NLI subyacentes que se utilizan para experimentos son HHEM (Debertav3), TruetEacher (T5-XXL). El LLM subyacente utilizado es Claude2. Los experimentos finales se realizan calculando las puntuaciones de Rouge entre el texto de referencia y el método de mitigación propuesto.
Lynx: un modelo de evaluación de alucinación de código abierto
- Métricas: precisión
- Conjuntos de datos: Halubench (consta de ~ 500 muestras aleatorias de Covidqa, PubMedqa, Drop, FinanceBench y otro conjunto de perturbaciones basadas en las muestras recuperadas)
- Comentarios: Propone un recurso Halubench y Lynx (modelo basado en el instructo LLAMA3-70bn) para una evaluación métrica sin referencia. El enfoque está en la evaluación de la alucinación instrínica, lo que significa que responde fiel al contexto dado en lugar del conocimiento mundial. Los ejemplos alucinados para Halubench se recogen con GPT-4O. El entrenamiento de Lynx se realiza en 2400 muestras de Ragtruth, Drop, Covidqa, PubMedqa con el razonamiento generado por GPT4O como parte de las muestras de entrenamiento. La evaluación se realiza extrayendo una etiqueta binaria de nivel de respuesta que indica la fidelidad de la respuesta al contexto.
LLMS alucinan gráficos también: una perspectiva estructural
- Métricas: distancia de edición de gráficos, distancia espectral, distancia entre distribuciones de grado.
- Conjuntos de datos: distancia del atlas gráfico
- Comentarios: Este punto de referencia presenta la capacidad de solicitar directamente LLM para estructuras gráficas conocidas. Se estudian las distancias de las salidas de LLM y los gráficos de la verdad de tierra. Una clasificación basada en la distancia de edición de gráficos clasifica a LLMS en su amplitud de alucinación.
HallusionBench: una suite de diagnóstico avanzada para la alucinación del lenguaje enredado y la ilusión visual en modelos de idiomas de visión grandes
- Métricas: precisión.
- Conjuntos de datos: HallusionBench
- COMENTARIOS: Este referencia presenta desafíos significativos para los modelos avanzados de grandes idiomas visuales (LVLM), como GPT-4V (Vision), Gemini Pro Vision, Claude 3 y LLAVA-1.5, al enfatizar la comprensión e interpretación de datos visuales. Este artículo presenta una estructura novedosa para estas preguntas visuales diseñadas para establecer grupos de control. Esta estructura es capaz de realizar un análisis cuantitativo de las tendencias de respuesta de los modelos, la consistencia lógica y varios modos de falla.
Detección de alucinación unificada para modelos de idiomas grandes multimodales
- Métricas: precisión, F1/Precision/Retiro.
- Conjuntos de datos: mhalubench
- Marco: unihd
- Comentarios: Este documento propone una configuración de problemas más unificada para la detección de alucinación en MLLM, revela un mhalubench de referencia de meta-evaluación que abarca varias categorías de alucinación y tareas multimodales e introduce UNIHD, un marco unificado para la detección de alucinaciones en el contenido producido por MLLM.
FactChd: Benchmarking Detection de alucinación que confunde hechos
- Métricas: F1 de detección, coincidencia de explicación
- Conjuntos de datos: FactChd
- Lo más destacado: este documento presenta el punto de referencia FactChd, que se centra en detectar alucinaciones que confían en hechos. FACCHD integra el conocimiento fáctico de múltiples dominios, que abarca una amplia gama de patrones de hechos, incluidos hechos en bruto, razonamiento múltiple, comparación y operaciones establecidas. Su característica distintiva radica en su objetivo de combinar cadenas de evidencia enraizadas en información real, lo que permite un razonamiento persuasivo para predecir la facturidad o la no factualidad de un reclamo.
La atención satisface: una lente de satisfacción de restricción en los errores objetivos de los modelos de idiomas
- Métricas: AUROC, Puntos de operación de la curva de cobertura de riesgo
- Conjuntos de datos: contrafactación, consultas fácticas generadas a partir de wikidata
- Comentarios: Este documento modela las consultas objetivas como problemas de satisfacción de restricciones y encuentra que la atención a los tokens de restricción se correlaciona significativamente con la corrección/alucinaciones fácticas.
Verdadero: Reevaluación de la evaluación de consistencia objetiva
- Métricas: AUROC, en múltiples conjuntos de datos y métodos de evaluación
- Conjuntos de datos: patas, xsum, Qags, Frank, Summeval, Begin, Q^2, DialFact, Fiebre, Vitaminc
TruetEacher: aprendizaje de la evaluación de consistencia objetiva con modelos de idiomas grandes
- Métricas: AUROC, en múltiples conjuntos de datos y métodos de evaluación
- Conjuntos de datos: xsum, Qags, Frank, Summeval
SACO $^3 $ : Detección de alucinación confiable en modelos de lenguaje de caja negra a través de la consistencia de verificación cruzada de la semántica
- Métricas: Precisión y AUROC: Clasificación QA y QA de dominio abierto
- Conjuntos de datos: Número primo y búsqueda de senadores de Snowball Alucination, Hotpotqa y NQ-Open QA
Elástica eliminación de peso para la generación de diálogo fiel y abstracto
- Métricas: fidelidad entre la respuesta predicha y el conocimiento de la verdad en tierra (Tab. 1)-Critic, Q², Bert F1, F1.
- Conjuntos de datos: Asistente de Wikipedia (WOW), Extensiones DSTC9 y DSTC11 de Multiwoz 2.1, Faithdial-un subconjunto dess-talucinado de WOW.
Confiar en su evidencia: alucinar menos con la decodificación del contexto
- Métricas: consistencia objetiva de resúmenes: Bert-Precision y FACKKB. MEMOTRAP y NQ-SWAP: Match exacta.
- Conjuntos de datos: resumen: CNN-DM, xsum. Conflictos de conocimiento: Memotrap, NQ-SWAP.
Cuando no confiará en los modelos de idiomas: investigar la efectividad de los recuerdos paramétricos y no paramétricos
- Métricas: coincidencia/precisión exacta.
- Conjuntos de datos: conjuntos de datos de control de calidad con entidades de cola larga: Popqa, EntityQuestions; Nq.
El aumento de recuperación reduce la alucinación en la conversación
- Métricas: Generación: perplejidad, superposición unigram (F1), Bleu-4, Rouge-L. Se superpone entre la generación y el conocimiento sobre el que el humano fue basado en la recolección del conjunto de datos: conocimiento F1; Solo considere palabras que son poco frecuentes en el conjunto de datos al calcular F1: raro F1.
- Conjuntos de datos: wow, documento CMU Conversaciones fundamentadas (CMU_DOG). Fuente de conocimiento: vertedero de wikipedia de kilt.
Solo solicite calibración: estrategias para obtener puntajes de confianza calibrados de modelos de idiomas ajustados con comentarios humanos
- Métricas: error de calibración esperado (ECE) con escala de temperatura (ECE-T); precisión@cobertura y cobertura@precisión.
- Conjuntos de datos: preguntas que responden conjuntos de datos que evalúan el conocimiento fáctico: Triviaqa, Sciq, Verdulqa.
Cómo las alucinaciones del modelo de idioma pueden la bola de nieve
- Métricas: porcentaje de respuestas incorrectas (alucinaciones) y casos en los que "el modelo sabe que está mal" (alucinaciones de bola de nieve).
- Conjuntos de datos: Pruebas de primalidad, búsqueda del senador, conectividad gráfica.
Mejorar los modelos de idiomas con gradientes de políticas fuera de línea basados en ventajas
- Métricas: Evaluación de fidelidad para la generación de respuestas a tierra de conocimiento en Faithdial-Faithcritic, COLA (fluidez), compromiso del diálogo, diversidad TF-IDF de longitud penalizada.
- Conjuntos de datos: diálogo fiel de conocimiento: Faithdial, un subconjunto más fiel de WOW.
Generación con confianza: cuantificación de incertidumbre para modelos de lenguaje grande de caja negra
- Métricas: AUROC, AUARC, Métricas de incertidumbre y confianza (Numset, DEG, EIGV).
- Conjuntos de datos: CoQA (conjunto de datos de control de calidad de control de libro abierto), Triviaqa y preguntas naturales (QA de libro cerrado).
Probabilidad de secuencia contextualizada: puntajes de confianza mejorados para la generación del lenguaje natural
- Métricas: Auroc, Auarc; La probabilidad de secuencia mejorada (probabilidad de registro de secuencia generada) utilizada en el cálculo de confianza o incertidumbre.
- Conjuntos de datos: CoQA (conjunto de datos de control de calidad de control de libro abierto), Triviaqa y preguntas naturales (QA de libro cerrado).
Faithdial: un punto de referencia fiel para el diálogo de búsqueda de información
- Métricas: las métricas miden el grado de alucinación de las respuestas generadas WRT a algún conocimiento dado o su superposición con respuestas fieles de oro: crítico, Q² (F1, NLI), Bertscore, F1, Bleu, Rouge.
- Conjuntos de datos: Faithdial, wow.
Cazador de rutas neuronales: Reducción de la alucinación en los sistemas de diálogo a través de la conexión a tierra de la ruta
- Métricas: Feqa, una métrica de fidelidad; Crítico, un crítico de alucinación; Bleu.
- Conjuntos de datos: Opendialkg, un conjunto de datos que proporciona respuestas de diálogo abiertas basadas en rutas de un KG.
Halueval: un punto de referencia de evaluación de alucinación a gran escala
- Métricas: precisión: QA, diálogo, resumen.
- Conjuntos de datos: Halueval, una colección de muestras alucinadas generadas y anotadas por humanos para evaluar el rendimiento de los LLM al reconocer las alucinaciones.
Alucinaciones autocontradictorias de modelos de idiomas grandes: evaluación, detección y mitigación
- Métricas: después de generar pares de oraciones, mide la precisión, el retiro y la puntuación F1 en las tareas de detección.
- Conjuntos de datos: 12 temas seleccionados de Wikipedia.
Mitigando la alucinación del modelo de lenguaje con alineación interactiva de conocimiento de la pregunta
- Métricas: Cobertura : una métrica binaria que determina si todos los valores de respuesta de oro correctos están incluidos en el valor generado. Alucinación : un indicador binario que evalúa la presencia de valores generados que no existen en los valores de preguntas y los valores de base de oro. Simulador de usuario : simulador de usuario como un modelo de idioma "Oracle" con acceso a información de atribución sobre la respuesta de destino.
- Conjuntos de datos: Fuzzyqa, un conjunto de datos basado en Hybriddialogue y Musique donde las preguntas complejas se simplificaron usando CHATGPT.
Verifique sus hechos e intente nuevamente: Mejora de modelos de idiomas grandes con conocimiento externo y comentarios automatizados
- Métricas: KF1, Bleu, Rouge, CHRF, Meteor, Bertscore, Bartscore, Bleurt, AVG Longitud.
- Conjuntos de datos: Chat de noticias: DSTC7 Track 2 fue reutilizado como un corpus de evaluación para la conversación de noticias. Servicio al cliente: utiliza DSTC11 Track 5 como un escaparate en un escenario de servicio al cliente conversacional, ampliando DSTC9 Track 1 incorporando información subjetiva.
SelfCheckGPT: detección de alucinación de caja negra de recursos cero para modelos generativos de idiomas grandes
- Métricas: detección de alucinación a nivel de oración (AUC-PR) y detección de alucinación a nivel de paso (coeficientes de correlación de Pearson y Spearman).
- Conjuntos de datos: artículos generados por Wikipedia de Wikibio, con alucinaciones anotadas.
El estado interno de un LLM sabe cuándo está mintiendo
- Métricas: precisión por tema y promedio.
- Conjuntos de datos: el conjunto de datos verdaderos de falso contiene declaraciones verdaderas y falsas que cubren varios temas: ciudades, inventos, elementos químicos, animales, empresas y hechos científicos.
Cadena de conocimiento: un marco para conectar modelos de idiomas grandes con bases de conocimiento estructuradas
- Métricas: partido exacto.
- Conjuntos de datos: fiebre, hotpotqa adversario.
Halo: Estimación y reducción de alucinaciones en modelos de lengua grande de código abierto
- Métricas: puntajes Halocheck y SelfCheckgpt; consistencia, hecho.
- Conjuntos de datos: preguntas generadas y revisadas en el dominio de la NBA.
Una puntada en el tiempo ahorra nueve: detectar y mitigar alucinaciones de LLM al validar la generación de baja confianza
- Métricas: precisión y retiro al detectar alucinaciones a nivel de oración y al nivel de concepto.
- Conjuntos de datos: párrafos generados por ChatGPT que abarcan 150 temas de diversos dominios.
Fuentes de alucinación por modelos de idiomas grandes en tareas de inferencia
- Métricas: Precisión y recuerdo de Levy/Holt direccional con inserciones y reemplazos de entidades.
- Conjuntos de datos: conjunto de datos Levy/Holt, que contiene pares de hipótesis de premisas con una tarea formateada como dada [premisa P], ¿es cierto que [hipótesis H]? , donde el modelo se evalúa con premisas aleatorias.
Alucinaciones en grandes modelos de traducción multilingües
- Métricas: tasa a la que el sistema MT produce alucinaciones bajo perturbación (fracción de par de idiomas, tasa).
- Conjuntos de datos: Flores-101, WMT, TICO.
Cita: una clave para construir modelos de idiomas grandes responsables y responsables
- Métricas: N/A
- Conjuntos de datos: N/A
Prevención de alucinación de recursos cero para modelos de idiomas grandes
- Métricas: Clasificación de instrucción alucinatoria: AUC, ACC, F1, PEA.
- Conjuntos de datos: Concept-7, que se centra en clasificar posibles instrucciones alucinantes.
RARR: Investigar y revisar lo que dicen los modelos de idiomas, utilizando modelos de idiomas
- Métricas: atribuibles a las puntuaciones de fuentes identificadas (AIS) antes y después de la edición.
- Conjuntos de datos: declaraciones generadas creando entradas de tareas a partir de tres conjuntos de datos y solicitando a diferentes modelos que produzcan salidas de forma larga que pueden contener alucinaciones: declaraciones de datos, cadenas de razonamiento y diálogos intensivos en conocimiento.
Q²: Evaluación de la consistencia fáctica en diálogos con cementerios de conocimiento a través de la generación de preguntas y la respuesta de las preguntas
- Métricas: Q² es una métrica en sí, y se compara con la superposición de nivel de token F1, precisión y retiro, q² sin nli, e2e nli, superposición, bertscore y bleu.
- Conjuntos de datos: WOW que contiene diálogos en los que un bot necesita responder a las entradas de los usuarios de manera conocedora; Topical-Chat, un conjunto de datos de conversación de conocimiento humano-humano con conocimiento; Diálogo NLI, un conjunto de datos basado en la tarea de diálogo de personaje-chat que consiste en pares de premisas de hipótesis.
¿Sabemos lo que no sabemos? Estudiar preguntas sin respuesta más allá del escuadrón 2.0
- Métricas: Em en todos, "tiene respuesta" y "idk"
- Conjuntos de datos: Mnli, Escuadrón 2.0, Ace-WHQA.
La cadena de verificación reduce la alucinación en modelos de idiomas grandes
- Métricas: Wikidata y Wiki-Category List: Prueba de precisión, número promedio de entidades positivas y negativas (alucinación) para preguntas basadas en listas; Multiespanqa: f1, precisión, recuerdo; Generación larga de biografías: FactScore.
- Conjuntos de datos: Wikidata, Wiki-Category List, Multispanqa, Longform Generation of Biographies.
Detección y mitigación de alucinaciones en resumen multilingüe
- Métricas: MFACT, una nueva métrica multilingüe fiel desarrollada a partir de cuatro métricas de fidelidad inglesa: DAE, QaFacteval, ENFS%e Entfa.
- Conjuntos de datos: XL-suM, un conjunto de datos de resumen multilingüe.
¡Alucinado pero fáctico! Inspeccionar la facturidad de las alucinaciones en la resumen abstractos
- Métricas: Xent: Alucinación (Precisión, F1), Factualidad (Precisión, F1), Rouge, % de N-Gram novedoso, Fidelidad ( % ENFS, FEQA, DAE), ENTFA ( % Factual Ent., % Hal hábil).
- Conjuntos de datos: un conjunto de datos novedoso, Xent, para analizar la alucinación de la entidad y la realidad en el resumen abstracto, que consiste en 800 resúmenes generados por BART y anotado. Ment, un conjunto de anotaciones de hecho y alucinación para xsum.
- Comentarios: Tab. 2 describe varios tipos de alucinaciones (p. Ej., Factual, no factual, intrínseco).
Habilitar modelos de idiomas grandes para generar texto con citas
- Métricas: fluidez (mauva), corrección (recuerdo de EM para ASQA, recuerdo-5 para qampari, reclamo de reclamo para eli5), calidad de cita (recuerdo de citas, precisión de citas).
- Conjuntos de datos: conjuntos de datos de control de calidad de tal manera que 1) contienen preguntas fácticas en las que las referencias son importantes, 2) las preguntas requieren respuestas de texto largo que cubren múltiples aspectos, y 3) responder las preguntas requiere sintetizar múltiples fuentes: ASQA, Qampari, ELI5.
Un punto de referencia de detección de alucinación sin referencia sin referencia de nivel token para la generación de texto de forma libre
- Métricas: ACC, G-Mean, BSS, AUC, no alucinación (P, R, F1), Alucinación (P, R, F1).
- Conjuntos de datos: Hades (conjunto de datos de detección de alucinación), un nuevo conjunto de datos de detección de alucinación anotado sin referencia de nivel de token obtenido al perturbar una gran cantidad de segmentos de texto extraídos de la wikipedia inglesa y verificado con anotaciones de origen multitude.
- Comentarios: La figura 3 describe varios tipos de alucinación (conocimiento específico del dominio, conocimiento de sentido común, incoherencia o colocación inadecuada, no relacionados con el tema central, conflicto con el contexto anterior, conflicto con un contexto sucesivo, ..)
Generación de puntos de referencia para la evaluación de la facturidad de los modelos de idiomas
- Métricas: porcentaje de ejemplos que asigna la mayor probabilidad para la finalización objetiva.
- Conjuntos de datos: factor wiki y factor de noticias: dos nuevos puntos de referencia de evaluación de factores para LLM, basados en Wikipedia y artículos de noticias. Cada ejemplo consiste en un prefijo, una finalización objetiva y tres alternativas similares pero no factuales.
- Comentarios: El documento presenta un marco para generar automáticamente dichos conjuntos de datos a partir de un corpus determinado, detallado en la Sección 3.
¿Los modelos de idiomas saben cuándo son referencias alucinantes?
- Métricas: tasa de alucinación (H%, de 1000 títulos generados)
- Conjuntos de datos: referencias generadas (verdaderas y alucinadas) sobre temas del sistema de clasificación de computación ACM.
¿Por qué ChatGPT se queda corto al proporcionar respuestas sinceras?
- Métricas: respuestas #Correct y #Wrong, y diferentes tipos de fallas cuenta: comprensión, hecho, especificidad, inferencia.
- Conjuntos de datos: hotpotqa, boolq
- Comentarios: Esto tiene una buena taxonomía en diferentes tipos de errores: por ejemplo, comprensión , hecho , especificidad , inferencia .
LM VS LM: Detección de errores objetivos a través del interrogatorio
- Métricas: precisión, recuperación, F1 (bajo diferentes estrategias de interrogatorio: AYS, IDK, basado en la confianza, IC-IDK)
- Conjuntos de datos: Triviaqa, NQ, Popqa
Rho (ρ): Reducción de la alucinación en diálogos abiertos de dominio con conexión a tierra de conocimiento
- Métricas: Bleu, Rouge-L; Feqa, Questeval, EntityCoverage (Precision, Remall, F1) para estimar el grado de alucinación-FRQA y Questeval son métricas basadas en QA para evaluar la fidelidad de la producción en la tarea de generación.
- Conjuntos de datos: Opendialkg
FactScore: evaluación atómica de grano fino de la precisión fáctica en la generación de texto de forma larga
- Métricas: %respaldaba declaraciones en diferentes niveles de frecuencia de entidades humanas.
- Conjuntos de datos: Biografías de personas generadas a partir de LLM, donde los anotadores humanos los rompen en hechos de apoyo.
Expertqa: preguntas curadas por expertos y respuestas atribuidas
- Métricas: shot cero (P, R, F1) y ajustado (P, R, F1) de las etiquetas AutoAIS; FactScore F1 puntajes en etiquetas de hecho de referencia; AutoAIS (atribuibles a las fuentes identificadas) puntajes.
- Conjuntos de datos: preguntas curadas por expertos en múltiples campos (p. Ej., Antropología, arquitectura, biología, química, ingeniería y tecnología, atención médica/medicina; ver Tab. 1 para una muestra) organizado por tipo de pregunta (por ejemplo, pregunta dirigida con una sola respuesta inequívoca, respuesta de potencialmente abierta, pregunta, resumen de información de un tema, consejo o sugerencia sobre cómo abordar un problema; ver un problema; vea la tabla 2)
Dola: la decodificación por capas contrastantes mejora la facturidad en modelos de idiomas grandes
- Métricas: Truthffulqa: MC1, MC2, MC3 puntajes; Factor: noticias, wiki; Estos fueron resultados de opción múltiple. Generación abierta: para la verdadera, usan %verdad, %info, %verdad*info, %rechazar; Para las tareas de COT (estrategiaqa y gsm8k) van con precisión.
- Conjuntos de datos: verdaderos, factor (noticias/wiki), estrategiaqa, gsm8k
Freshllms: refrescante modelos de idiomas grandes con aumento del motor de búsqueda
- Métricas: precisión (estricta, relajada en preguntas que cambian rápidamente, preguntas que cambian lentamente, preguntas que nunca cambian, preguntas falsas implican conocimiento antes de 2022 y desde 2022, 1-hop y preguntas múltiples, y en general).
- Conjuntos de datos: Freshqa, un nuevo punto de referencia de control de calidad con 600 preguntas que cubren un amplio espectro de tipos de preguntas y respuestas.
Más allá de la facturidad: una evaluación integral de modelos de idiomas grandes como generadores de conocimiento
- Métricas: realidad, relevancia, coherencia, informatividad, ayuda y validez.
- Conjuntos de datos: preguntas naturales, asistente de Wikipedia.
Verificación de reclamos complejos con evidencia recuperada en la naturaleza
- Métricas: precisión, MAE, macro-F1, precisión suave.
- Conjuntos de datos: reclamo de reclamo, que contiene 1200 reclamos complejos de PolitiFactl, cada reclamo está etiquetado con una de las seis etiquetas de veracidad, un párrafo de justificación escrito por los verificadores de datos esperados y las subcuestiones anotadas por trabajo previo.
FELM: evaluación de facturidad de la evaluación comparativa de modelos de idiomas grandes
- Métricas: precisión, F1/Precision/Retiro.
- Conjuntos de datos: razonamiento, matemáticas, escritura/rec, ciencia/tecnología, conocimiento mundial: GSM8K, CHATGPT, MATH, LIERDFLEQA, Quora, MMLU/HC3.
Evaluación de alucinaciones en modelos chinos de idiomas grandes
- Métricas: evaluaciones Humand y GPT-4.
- Conjuntos de datos: Halluqa (que proponen), y mencionan la verdadera, Chinafacteval, Halueval.
Sobre la fidelidad y la facturidad en el resumen abstracto
- Métricas: Rouge, Bertscore; Evaluación humana (identifique los tramos alucinantes y si es intrínseco o extrínseco): las alucinaciones intrínsecas son manipulaciones de la información en el documento de entrada, mientras que las alucinaciones extrínsecas no son directamente inferibles del documento de entrada. Se pidió a los humanos que anotaran alucinaciones intrínsecas y extrínsecas.
- Conjuntos de datos: xsum.
QuesteVal: el resumen solicita una evaluación basada en hechos
- Métricas: QuesteVal (propuesta en este trabajo), para pruebas de consistencia , coherencia , fluidez y relevancia . Rouge, azul, meteorito, bertscore. Summaqa, Qags.
- Conjuntos de datos: Summeval, QAGS-XSUM, Squad-V2.
QaFactEval: evaluación de consistencia objetiva mejorada basada en QA para resumir
- Métricas: QAFACTEVAL (propuesto en este trabajo), midiendo la selección de respuestas, generación de preguntas, respuesta a las preguntas, superposición de respuesta y filtrado/capacidad de respuesta.
- Conjuntos de datos: sumacre, una colección de puntos de referencia para evaluación de consistencia fáctica binaria; CGS, oraciones correctas e incorrectas de CNN/DailyMail; XSF; Politope; FACTCC; Verano; FRANCO; Qags.
Detección de inconsistencia fáctica rápida y precisa en documentos largos
- Métricas: Escala (nueva métrica propuesta en este trabajo). En comparación con Q², ANLI, Summa, F1, Bleurt, Questeval, Bartscore, Bertscore (Tabla 3).
- Conjuntos de datos: verdadero punto de referencia y capataz de pantalla, nuevo conjunto de datos propuesto en este trabajo para evaluar la inconsistencia fáctica en los diálogos de forma larga (52 documentos de SummScreen).
Comprensión de la facturidad en el resumen abstracto con Frank: un punto de referencia para las métricas de facturidad
- Métricas: Bertscore, FEQA, QGFS, DAE, FACKCC
- Conjuntos de datos: propuso un nuevo conjunto de datos Frank: Errores de hechos anotados por humanos para CNN/DM y XSUM DataSet
Verdadero: Reevaluación de la evaluación de consistencia objetiva
- Métricas: Q², Anli, summac, bleurt, Questeval, FactCC, Bartscore, Bertscore
- Conjuntos de datos: consolidación de 11 conjuntos de datos anotados humanos diferentes para consistencia ftual.
El curioso caso de la capacidad de respuesta alucinatoria (un): encontrar verdades en los estados ocultos de modelos de idiomas grandes exagerados
- Métricas: (Clasificación) F-1, Match exacta, (token) F-1
- Conjuntos de datos: escuadrón, preguntas naturales, musique
- COMENTARIOS: Este documento modelos explora el manejo de LLM de las preguntas (no) que responden en un entorno de libro cerrado, a saber, respondiendo una pregunta basada en un pasaje determinado, donde el pasaje no tiene la respuesta. El documento muestra que a pesar de la tendencia de LLM a alucinar las respuestas contextuales, en lugar de afirmar que no pueden responder la pregunta, poseen una comprensión interna de la capacidad de respuesta (un) de la pregunta.
¿Los androides saben que solo soñan con ovejas eléctricas?
- Métricas: (Detección de alucinación) Nivel de respuesta F1, partido de crédito parcial de nivel Span F1 F1
- Conjuntos de datos: CNN DailyMail CNN generado orgánicamente y editado sintéticamente, Convfever y E2E, etiquetado en cuanto al tramo para alucinaciones
- Comentarios: Los modelos de idiomas saben cuándo están alucinando, y podemos entrenar sondas en los estados ocultos de LLM durante la decodificación para detectarlos de manera confiable.
La corrección con retroceso reduce la alucinación en el resumen
- Métricas: AlignScore, FACKCC, BS-Fact, Rouge-L
- Conjuntos de datos: CNN/DM, XSUM, sala de redacción
Detección y edición de alucinación de grano fino para modelos de idiomas
- Métricas: precisión, recuerdo, F1.
- Conjuntos de datos: conjunto de datos de detección/edición de alucinación de grano fino personalizado para varios tipos de alucinaciones (fácticas): entidad, relación, contradictoria, inventada, subjetiva, no verificable.
LLMS como razonadores de hechos: información de los puntos de referencia existentes y más allá
- Métricas: precisión para varios tipos de error: ejemplos positivos, intercambio de fecha, intercambio de entidades, oraciones negadas, intercambio de números, intercambio de pronombre.
- Conjuntos de datos: proponen Summedits, un punto de referencia de detección de inconsistencia de 10 dominios.
Evaluación de la consistencia fáctica de la resumen de texto abstractos
- Métricas: proponen FACCCC, una métrica que mide la consistencia fáctica de la resumen del texto abstractos (intuición: un resumen es consistente si contiene los mismos hechos que el documento fuente)
- Conjuntos de datos: CNN/DM para generar datos de capacitación; Mnli y fiebre para modelos de entrenamiento. Experimentos basados en humanos para la evaluación de afirmaciones sobre artículos CNN/DM.
Cumbre: volver a visitar modelos basados en NLI para detección de inconsistencia en resumen
- Métricas: cada conjunto de datos viene con sus métricas (por ejemplo, CogenSumm utiliza una medida basada en el reranking; XsumFaith, Summeval y Frank proponen varias métricas y analiza cómo se correlacionan con las anotaciones humanas; etc.)-Para la sumisión, los autores proponen usar precisión equilibrada.
- Conjuntos de datos: proponen una sumisión (consistencia resumida), un punto de referencia que consta de seis grandes conjuntos de datos de detección de inconsistencia: CogenSumm, XsumFaith, Polyitope, FACKCC, Summeval y Frank.
Sobre el origen de las alucinaciones en los modelos de conversación: ¿son los conjuntos de datos o los modelos?
- Métricas: anotaciones expertas y no experiencias: alucinación parcial, implicación, alucinación, UNOOC, genérica (cada una de estas categorías tiene subclases de grano más fino, ver, Fig. 2), las anotaciones siguen las taxonomías Begin y VRM.
- Conjuntos de datos: puntos de referencia conversacionales con conocimiento de conocimiento: Mago de Wikipedia (WOW), CMU-DOG y TopicalChat-conjuntos de datos que consisten en diálogos entre dos altavoces donde el objetivo es comunicar información sobre temas particulares, mientras que los hablantes se presentan con un fragmento de conocimiento relevante para el turno actual.
Enseñar modelos de idiomas para alucinar menos con tareas sintéticas
- Métricas: tasa de alucinación en varios entornos (originales, con mensaje de sistema optimizado, con pesos LLM completos, con datos sintéticos o con mezclas de datos sintéticos y de referencia); Bleu, Rouge-1, Rouge-2, Rouge-L.
- Conjuntos de datos: búsqueda y retrato (MS Marco), resumen de reuniones (QMSUM), generación de informes clínicos automatizados (ACI-Bench).
Estrategias de decodificación conscientes de la fidelidad para resumen abstractos
- Métricas: Rouge-L, Bertscore, BS-Fact, FactCC, Dae, Questeval
- Conjuntos de datos: CNN/DM, xsum
Muestreo de temperatura guiada por KL-divergencia
- Métricas: QA conversacional: modelos ajustados en MNLI, SNLI, Fiebre, PAWS, SCTAIL y Vitaminc. Resumen: modelos ajustados en anli y xnli.
- Conjuntos de datos: reescritura de preguntas en contexto conversacional (QRECC), XLSUM.
Investigación de alucinaciones en modelos de lenguaje grandes podados para resumen abstractivo
- Métricas: Métricas de riesgo de alucinación (Harim+), Sumpa, Summaczs, SummacConv, Ratio de riesgo de alucinación (HRR)
- Conjuntos de datos: FACTCC, Polytope, Summeval, Contratos legales, ECA
Conflictos de conocimiento basados en la entidad en cuestión de respuesta
- Métricas: EM, relación de memorización.
- Conjuntos de datos: NQ Dev con respuesta de respuesta (AO) y sin superposición de respuesta (NAO), Newsqa.
Truthx: aliviando alucinaciones editando modelos de idiomas grandes en el espacio verdadero
- Métricas: puntajes MC1/MC2/MC3 para la tarea de opción múltiple Truthffulqa; %Verdad, %info, %verdad*Información para la tarea de generación abierta de verdad para Truefulqa; Precisión de elección para preguntas naturales, Triviaqa y factor (noticias, experto, wiki).
- Conjuntos de datos: verdaderos, preguntas naturales, triviaqa, factor (noticias, experto, wiki)
La descomposición de la pregunta mejora la fidelidad del razonamiento generado por el modelo
- Métricas: precisión, sensibilidad de truncamiento de respuesta final, sensibilidad de corrupción de respuesta final, cambio de precisión sesgada de contexto.
- Conjuntos de datos: hotpotqa, OpenBookqa, Strategyqa, Lucinffulqa.
Alucinaciones autocontradictorias de modelos de idiomas grandes: evaluación, detección y mitigación
- Métricas: para detección: precisión, recuerdo, F1. Para la mitigación: relación de autocontradicción eliminada, la relación de hechos informativos retenidos, la perplejidad aumentó.
- Conjuntos de datos: conjunto de datos de generación de texto de dominio abierto personalizado, descripciones de texto enciclopédico generadas por LLM para entidades Wikipedia, Popqa.
Detección de alucinaciones en modelos de idiomas grandes utilizando entropía semántica
- Métricas: para detección: Auroc, Aurac.
- Conjuntos de datos: QA: Triviaqa, Squad, BioAsq, NQ-Open, Svamp. FACTUALBIO, un conjunto de datos de generación de biografía, que acompaña a este documento.
Elenco: prueba de similitud de alineación intermodal para modelos de lenguaje de visión
- Métricas: Proponer el elenco, una métrica de autoconsistencia simple que busca evaluar si los modelos multimodales son consistentes entre las modalidades. Esto funciona en dos etapas, en la primera etapa, los modelos generan similitudes/declaraciones verdaderas que comparan dos entradas, y en la segunda etapa el modelo juzga su propia salida para la veracidad. Por lo tanto, un modelo consistente siempre debe evaluar sus propios resultados como verdaderos.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomías
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.