Detecção de Hallucinação Awesome
Citando este repositório
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
Documentos e resumos
Comportamentos de seleção de conhecimento de direção no LLMS via engenharia de representação baseada em SAE
- Métricas: correspondência exata
- Conjuntos de dados: nqswap, macnoise
- Comentários: O primeiro trabalho que usa codificadores automáticos esparsos (SAEs) para aprimorar o uso do conhecimento contextual e paramétrico.
Marte: pontuação de resposta com reconhecimento de significado para estimativa de incerteza em LLMs generativos
- Métricas: Auroc
- Conjuntos de dados: triviaqa, naturalqa, webqa
- Comentários: A técnica de estimativa de incerteza LLM chamada Marte substitui a pontuação de probabilidade normalizada por comprimento, atribuindo maiores pesos a tokens que contribuem mais significativamente para a correção.
Não projete, aprenda: uma função de pontuação treinável para estimativa de incerteza no LLMS generativo
- Métricas: Auroc, prr
- Conjuntos de dados: triviaqa, gsm8k, naturalqa, webqa
- Comentários: A técnica de estimativa de incerteza LLM, chamada Lars, treina um transformador baseado em codificador que recebe uma consulta, geração e probabilidades de token como entrada e retorna uma pontuação de incerteza como saída
Quantificando incerteza nas respostas de qualquer modelo de idioma e aprimorando sua confiabilidade
- Métricas: precisão, precisão/recall/auroc
- Conjuntos de dados: triviaqa, gsm8k, svamp, controle de qualidade de senso comum
- Comentários: Técnica de estimativa de incerteza LLM chamada BSDETECTOR que combina certeza de auto-reflexão e consistência observada em uma única pontuação de confiança. Detecta respostas incorretas/alucinadas de LLM com alta precisão/recall e também pode aumentar automaticamente a precisão das respostas do LLM.
Decor: decodificação, contrastando cabeças de recuperação para mitigar alucinações
- Métricas: MC1, MC2, MC3 Marcores para Tarefas de múltipla escolha da Siginfulqa; %Verdade, %Informações, %Verdade*Informações para a tarefa de geração aberta da Verdaderatqa; Combinação exata subespan para as tarefas de controle de qualidade de domínio aberto (NQ-Open, NQ-Swap, Triviaqa, Popqa, Musique); precisão para memotrap; Precisão de nível imediato e de instrução para o IFEVAL.
- Conjuntos de dados: verbyfulqa, nq-open, nq-swap, triviaqa, popqa, memotrap, ifeval, musique
Aproveitando alucinações para reduzir a dependência imediata manual na segmentação prontável
- Metrics: mae, f_ {beta}, s_ {alpha}
- Conjuntos de dados: camaleão, camufla
- Comentários: O primeiro estudo não considera as alucinações puramente negativas, mas como um aspecto comum do pré-treinamento do modelo. Ao contrário das abordagens anteriores que eliminam diretamente as alucinações, o Promac primeiro estimula as alucinações a minerar o conhecimento prévio do modelo pré-treinamento para coletar informações relevantes para a tarefa em imagens. Em seguida, elimina alucinações irrelevantes para mitigar seu impacto negativo. A eficácia desse método foi demonstrada em várias tarefas desafiadoras de segmentação.
Graphental: uma estrutura de avaliação de alucinação LLM baseada em grades de conhecimento
- Métricas: Precisão (Detecção), Rouge (Correção)
- Conjuntos de dados: Sumval, QAGS-C, QAGS-X
- Comentários: Propõe uma estrutura de graphCorrect de estrutura de detecção de alucinação e estrutura de coreção. A detecção de alucinação é feita extraindo triplos de kg de uma saída LLM e comparando o pedido dos triplos em relação ao contexto fornecido. A correção é feita com triplos com probabilidade de conter alucinações (implicando abaixo de 0,5), estão solicitando um LLM a gerar um novo triplo, factualmente correto em relação a um contexto fornecido. Posteriormente, em uma inferência separada, um LLM é solicitado a substituir as informações na saída LLM não fatual com base no triplo corrigido. Os modelos NLI subjacentes usados para experimentos são HHEM (Debertav3), True e TrueTeacher (T5-XXL). O LLM subjacente usado é Claude2. As experiências finais são realizadas computando os escores do ROUGE entre o texto de referência e o método de mitigação proposto.
Lynx: um modelo de avaliação de alucinação de código aberto
- Métricas: precisão
- Conjuntos de dados: Halubench (consiste em ~ 500 amostras aleatórias de Covidqa, PubMedqa, Drop, Financebench e outro conjunto de perturbações baseadas nas amostras recuperadas)
- Comentários: propõe um recurso Halubench e Lynx (Modelo baseado em instrução LLAMA3-70BN) para uma avaliação métrica sem referência. O foco está na avaliação do Hallucination Insinsic, o que significa respostas fiéis ao contexto dado, em vez do conhecimento mundial. Exemplos alucinados para Halubench estão reunidos com o GPT-4O. O treinamento do Lynx é realizado em 2400 amostras de Ragtruth, Drop, Covidqa, PubMedqa, com o GPT4O gerou raciocínio como parte das amostras de treinamento. A avaliação é feita extraindo um rótulo binário no nível da resposta, indicando a fidelidade da resposta ao contexto.
Gráficos alucinados de LLMS também: uma perspectiva estrutural
- Métricas: distância de edição de gráfico, distância espectral, distância entre distribuições de graus.
- Conjuntos de dados: distância do atlas gráfico
- Comentários: Este benchmark apresenta a capacidade de solicitar diretamente o LLMS para estruturas de gráficos conhecidas. As distâncias das saídas dos LLMs e dos gráficos da verdade do solo são estudadas. Uma classificação baseada na distância de edição de gráficos Sorts LLMs em sua amplitude de alucinação.
Hallusionbench: um conjunto avançado de diagnóstico para alucinação de idiomas emaranhada e ilusão visual em modelos de grande linguagem de visão de visão
- Métricas: precisão.
- Conjuntos de dados: Hallusionbench
- Comentários: Este benchmark apresenta desafios significativos a grandes modelos avançados de linguagem visual (LVLMS), como GPT-4V (Vision), Gemini Pro Vision, Claude 3 e Llava-1.5, enfatizando a compreensão e a interpretação sutis dos dados visuais. Este artigo apresenta uma nova estrutura para essas perguntas visuais projetadas para estabelecer grupos de controle. Essa estrutura é capaz de realizar uma análise quantitativa das tendências de resposta dos modelos, consistência lógica e vários modos de falha.
Detecção de alucinação unificada para modelos de linguagem grande multimodal
- Métricas: precisão, F1/Precision/Recall.
- Conjuntos de dados: mhalubench
- Estrutura: Unihd
- Comentários: Este artigo propõe uma configuração de problemas mais unificada para a detecção de alucinação no MLLMS, revela um benchmark de meta-avaliação Mhalubench que abrange várias categorias de alucinação e tarefas multimodais e introduz UniHD, uma estrutura unificada para a detecção de alucinações em conteúdo produzido.
FACTCHD: Detecção de alucinação que confunde fatos de benchmarking
- Métricas: F1 de detecção, correspondência de explicação
- Conjuntos de dados: factchd
- Destaques: Este artigo apresenta o benchmark FACTCHD, que se concentra na detecção de alucinações de conflição de fatos. O FACTCHD integra o conhecimento factual de vários domínios, abrangendo uma ampla gama de padrões de fatos, incluindo fatos brutos, raciocínio multi-hop, comparação e operações definidas. Sua característica distintiva está em seu objetivo de combinar cadeias de evidências enraizadas em informações factuais, permitindo o raciocínio persuasivo na previsão da factualidade ou não fatualidade de uma reivindicação.
Atenção satisfaz: uma lente de satisfação de restrição sobre erros factuais de modelos de linguagem
- Métricas: AUROC, Curva de cobertura de risco Pontos de operação
- Conjuntos de dados: contrafactar, consultas factuais geradas a partir de wikidata
- Comentários: Este artigo modela consultas factuais como problemas de satisfação de restrição e descobre que a atenção aos tokens de restrição se correlaciona significativamente com a correção/alucinações factuais.
Verdadeiro: reavaliando a avaliação de consistência factual
- Métricas: AUROC, em vários conjuntos de dados e métodos de avaliação
- Conjuntos de dados: patas, xsum, QAGS, Frank, Sumval, Begin, Q^2, Dialfact, Fever, Vitaminc
TrueTeacher: Aprendendo a avaliação de consistência factual com modelos de idiomas grandes
- Métricas: AUROC, em vários conjuntos de dados e métodos de avaliação
- Conjuntos de dados: xsum, QAGS, Frank, Summer
SACO $^3 $ : Detecção confiável de alucinação em modelos de linguagem de caixa preta via consistência de verificação cruzada semântica
- Métricas: Precisão e AUROC: QA de classificação e QA de domínio aberto
- Conjuntos de dados: número primo e pesquisa do senador da Snowball Hallucination, Hotpotqa e QA Open NQ-Open
Remoção de peso elástico para geração de diálogo fiel e abstrata
- Métricas: fidelidade entre a resposta prevista e o conhecimento da verdadeira-verdade (Tab. 1)-Critic, Q², Bert F1, F1.
- DataSets: Wizard-Of-Wikipedia (WOW), as extensões DSTC9 e DSTC11 de Multiwoz 2.1, Faithdial-um subconjunto des-allulueiro do WOW.
Confiando em suas evidências: alucinar menos com decodificação de reconhecimento de contexto
- Métricas: Consistência factual dos resumos: Bert-Precision e FactKB. Memotrap e NQ-Swap: correspondência exata.
- Conjuntos de dados: resumo: cnn-dm, xsum. Conflitos de conhecimento: Memotrap, NQ-Swap.
Quando não confiar em modelos de linguagem: investigando a eficácia de memórias paramétricas e não paramétricas
- Métricas: Match/Precisão exata.
- Conjuntos de dados: conjuntos de dados de controle de qualidade com entidades de cauda longa: POPQA, entityQuestions; Nq.
A recuperação reduz a alucinação na conversa
- Métricas: Geração: Perplexidade, sobreposição de Unigram (F1), Bleu-4, Rouge-L. Sobreposição entre geração e conhecimento sobre o qual o humano fundamentado durante a coleção do conjunto de dados: conhecimento F1; Considere apenas palavras que não são frequentes no conjunto de dados ao calcular F1: raro F1.
- Conjuntos de dados: WOW, CMU Document Grounded Conversations (CMU_DOG). Fonte do conhecimento: Kilt Wikipedia Dump.
Basta pedir calibração: estratégias para obter pontuações de confiança calibrada de modelos de idiomas Finered com feedback humano
- Métricas: erro de calibração esperado (ECE) com escala de temperatura (ECE-T); Precisão@cobertura e cobertura@precisão.
- Conjuntos de dados: perguntas de resposta a conjuntos de dados avaliando o conhecimento factual: Triviaqa, Sciq, Siginfulqa.
Como as alucinações de modelos de idiomas podem bola de neve
- Métricas: porcentagem de respostas erradas (alucinações) e casos em que "o modelo sabe que está errado" (alucinações de bola de neve).
- Conjuntos de dados: teste primity, pesquisa de senador, conectividade gráfica.
Melhorando modelos de idiomas com gradientes de políticas offline baseadas em vantagens
- Métricas: Avaliação da fidelidade para a geração de respostas fundamentadas no conhecimento sobre fé-fé-fé-fé, cola (fluência), engajamento de diálogo, diversidade de TF-IDF com comprimento.
- Conjuntos de dados: diálogo fiel ao conhecimento: Faithdial, um subconjunto mais fiel do WOW.
Gerando com confiança: quantificação de incerteza para modelos de linguagem grande de caixa preta
- Métricas: AUROC, AUARC, Métricas de incerteza e confiança (NUMSET, DEG, EIGV).
- Conjuntos de dados: coqa (conjunto de dados de qa de conversação do livro aberto), triviaqa e questões naturais (QA de livro fechado).
Probabilidade contextualizada da sequência: pontuações aprimoradas de confiança para geração de linguagem natural
- Métricas: Auroc, AUarc; Probabilidade de sequência aprimorada (probabilidade de log de sequência gerada) usada em confiança ou computação de incerteza.
- Conjuntos de dados: coqa (conjunto de dados de qa de conversação do livro aberto), triviaqa e questões naturais (QA de livro fechado).
Faitial: uma referência fiel para o diálogo em busca de informações
- Métricas: As métricas medem o grau de alucinação de respostas geradas WRT a alguns dados ou sua sobreposição com respostas fiéis de ouro: crítico, Q² (F1, NLI), Bertscore, F1, Bleu, Rouge.
- Conjuntos de dados: FaithDial, uau.
Caçador de caminho neural: redução da alucinação em sistemas de diálogo via aterramento de caminho
- Métricas: Feqa, uma fidelidade; Crítico, um crítico de alucinação; Bleu.
- Conjuntos de dados: opendialKG, um conjunto de dados que fornece respostas de diálogo aberto fundamentadas em caminhos de um kg.
Halueval: um benchmark de avaliação de alucinação em larga escala
- Métricas: precisão: controle de qualidade, diálogo, resumo.
- Conjuntos de dados: Halueval, uma coleção de amostras alucinadas geradas e anunciadas por humanos para avaliar o desempenho do LLMS no reconhecimento de alucinações.
Alucinações auto-contraditórias de grandes modelos de idiomas: avaliação, detecção e mitigação
- Métricas: depois de gerar pares de frases, ele mede precisão, recall e pontuação de F1 nas tarefas de detecção.
- Conjuntos de dados: 12 tópicos selecionados da Wikipedia.
Mitigando Modelo de Linguagem Hallucinação com Alinhamento Interativo de Questões-conhecimento
- Métricas: Cobertura : Uma métrica binária que determina se todos os valores corretos da resposta do ouro estão incluídos no valor gerado. Hallucination : um indicador binário que avalia a presença de valores gerados que não existem nos valores das perguntas e nos valores de aterramento de ouro. Simulador de usuário : simulador de usuário como um modelo de idioma "oracle" com acesso a informações de atribuição sobre a resposta de destino.
- Conjuntos de dados: fuzzyqa, um conjunto de dados baseado no hibridado e musique, onde perguntas complexas foram simplificadas usando o chatgpt.
Verifique seus fatos e tente novamente: Melhorando grandes modelos de linguagem com conhecimento externo e feedback automatizado
- Métricas: KF1, Bleu, Rouge, Chrf, Meteor, Bertscore, Bartscore, Bleurt, Comprimento AVG.
- Conjuntos de dados: bate -papo de notícias: a faixa 2 do DSTC7 foi reaproveitada como um corpus de avaliação para conversas de notícias. Atendimento ao cliente: usa o DSTC11 Faixa 5 como uma vitrine em um cenário de atendimento ao cliente de conversação, expandindo -se na faixa 1 do DSTC9 incorporando informações subjetivas.
Selfceckgpt: detecção de hallucinação de caixa preta de resistência zero para modelos generativos de grandes linguagens
- Métricas: detecção de alucinação no nível da sentença (AUC-PR) e detecção de alucinação no nível da passagem (coeficientes de correlação de Pearson e Spearman).
- Conjuntos de dados: gerados artigos da Wikipedia do Wikibio, com alucinações anotadas.
O estado interno de um LLM sabe quando está mentindo
- Métricas: precisão por tópico e média.
- Conjuntos de dados: o conjunto de dados verdadeiro-false contém declarações verdadeiras e falsas que abrangem vários tópicos-cidades, invenções, elementos químicos, animais, empresas e fatos científicos.
Cadeia de conhecimento: uma estrutura para aterrar grandes modelos de linguagem com bases de conhecimento estruturadas
- Métricas: correspondência exata.
- Conjuntos de dados: febre, hotpotqa adversário.
Halo: Estimativa e redução de alucinações em modelos de linguagem grande e fraca de código aberto
- Métricas: pontuações de Halocheck e Selfeckgpt; consistência, factualidade.
- Conjuntos de dados: perguntas geradas e revisadas no domínio da NBA.
Um ponto no tempo economiza nove: detectar e atenuar alucinações do LLMS, validando a geração de baixa confiança
- Métricas: precisão e recall ao detectar o nível de sentença e alucinações no nível do conceito.
- Conjuntos de dados: parágrafos gerados por chatgpt abrangendo 150 tópicos de diversos domínios.
Fontes de alucinação por grandes modelos de idiomas em tarefas de inferência
- Métricas: precisão direcional de cobrança/holt e recall com inserções e substituições de entidades.
- Conjuntos de dados: conjunto de dados de cobrança/holt, contendo pares de hipotóticos premissa com uma tarefa formatada como dado [premissa P], é verdade que [Hipótese H]? , onde o modelo é avaliado com premissas aleatórias.
Alucinações em grandes modelos de tradução multilíngue
- Métricas: taxa a que o sistema MT produz alucinações sob perturbação (fração do par de idiomas, taxa).
- Conjuntos de dados: FLORES-101, WMT, TICO.
Citação: uma chave para construir modelos de idiomas grandes e responsáveis responsáveis
- Métricas: n/a
- Conjuntos de dados: n/a
Prevenção de alucinação com resistência zero para grandes modelos de idiomas
- Métricas: Classificação de Instrução Alucinatória: AUC, ACC, F1, Pea.
- Conjuntos de dados: Concept-7, que se concentra na classificação de possíveis instruções alucinatórias.
RARR: Pesquisando e revisando o que os modelos de idiomas dizem, usando modelos de idiomas
- Métricas: atribuível às pontuações de fontes identificadas (AIS) antes e após a edição.
- Conjuntos de dados: geradas instruções criando entradas de tarefas a partir de três conjuntos de dados e solicitando modelos diferentes para produzir saídas longas que podem conter alucinações-instruções factoid, cadeias de raciocínio e diálogos intensivos em conhecimento.
Q²: Avaliando a consistência factual em diálogos fundamentados pelo conhecimento por meio de geração de perguntas e resposta a perguntas
- Métricas: Q² é uma métrica em si e é comparada com a sobreposição, precisão e recall de nível de token F1, Q² com NLI, E2E NLI, Sobreposição, BertScore e Bleu.
- Conjuntos de dados: uau, que contém diálogos nos quais um bot precisa responder às entradas do usuário de maneira experiente; Tópico-bate-papo, um conjunto de dados de conversação de conhecimento humano-humano; O diálogo NLI, um conjunto de dados baseado na tarefa de diálogo Persona-Chat que consiste em pares de hipotóticos premissa.
Sabemos o que não sabemos? Estudando perguntas sem resposta além do esquadrão 2.0
- Métricas: Em All, "tem resposta" e "idk"
- Conjuntos de dados: MNLI, Esquadrão 2.0, ACE-WHQA.
A cadeia de verificação reduz a alucinação em grandes modelos de linguagem
- Métricas: Wikidata e Wiki-Category List: Precisão de teste, número médio de entidades positivas e negativas (alucinação) para perguntas baseadas em lista; Multispanqa: F1, Precision, Recall; Geração de biografias de longa data: FACTSCORE.
- Conjuntos de dados: wikidata, lista de categorias wiki, multispanqa, geração de biografias de longa data.
Detectar e atenuar alucinações em resumo multilíngue
- Métricas: MFFA, uma nova métrica fiel multilíngue desenvolvida a partir de quatro métricas de fidelidade inglesa: Dae, QafacfactEval, ENFS%e ENTFA.
- Conjuntos de dados: XL-SUM, um conjunto de dados de resumo multilíngue.
Alucinado, mas factual! Inspecionando a factualidade das alucinações em resumo abstrato
- Métricas: XENT: Hallucination (precisão, F1), factualidade (precisão, F1), Rouge, % de Novo N-Gram, Fidelidade ( % ENFS, Feqa, Dae), ENTFA ( % factual ent., % Factual Hal.)
- Conjuntos de dados: um novo conjunto de dados, XENT, para analisar a entidade e a factualidade da entidade em resumo abstrato, consistindo em 800 resumos gerados por Bart e anotados. Ment, um conjunto de anotações de factualidade e alucinação para Xsum.
- Comentários: guia. 2 descrevem vários tipos de alucinações (por exemplo, factual, não fatual, intrínseco).
Ativar grandes modelos de linguagem para gerar texto com citações
- Métricas: fluência (Mauve), correção (recall EM para ASQA, recall-5 para qampari, recordação de reivindicação para ELI5), qualidade de citação (recall de citação, precisão de citação).
- Conjuntos de dados: conjuntos de dados de controle de qualidade de modo que 1) eles contêm questões factuais nas quais as referências são importantes, 2) perguntas requerem respostas de texto longo que abrangem vários aspectos e 3) responder às perguntas requer sintetizando várias fontes: ASQA, QUPARI, ELI5.
Uma referência de detecção de alucinação sem referência em nível de referência para geração de texto de forma livre
- Métricas: ACC, G-Mean, BSS, AUC, não Hallucination (P, R, F1), Hallucination (P, R, F1).
- Conjuntos de dados: Hades (conjunto de dados de detecção de alucinação), um novo conjunto de dados de detecção de alucinação anotado sem referência em nível de token obtido, perturbando um grande número de segmentos de texto extraídos da Wikipedia inglesa e verificados com anotações de origem.
- Comentários: Fig. 3 descreve vários tipos de alucinação (conhecimento específico do domínio, conhecimento do senso comum, incoerência ou colocação inadequada, não relacionada ao tópico central, conflito com o contexto anterior, conflito com o contexto seguinte ...)
Gerando benchmarks para avaliação de factualidade de modelos de linguagem
- Métricas: porcentagem de exemplos atribui a maior probabilidade à conclusão factual.
- Conjuntos de dados: fator wiki e fator de notícias: dois novos benchmarks de avaliação de factualidade para LLMs, baseados na Wikipedia e artigos de notícias. Cada exemplo consiste em um prefixo, uma conclusão factual e três alternativas semelhantes, mas não fatais.
- Comentários: O artigo apresenta uma estrutura para gerar automaticamente esses conjuntos de dados a partir de um determinado corpus, detalhado na Seção 3.
Os modelos de idiomas sabem quando estão alucinando referências?
- Métricas: taxa de alucinação (H%, de 1000 títulos gerados)
- Conjuntos de dados: gerados (verdadeiros e alucinados) referências sobre tópicos do sistema de classificação de computação ACM.
Por que o chatgpt fica aquém do fornecimento de respostas verdadeiras?
- Métricas: #Correct e #wrong Respostas e diferentes tipos de contagens de falhas: compreensão, factualness, especificidade, inferência.
- Conjuntos de dados: hotpotqa, boolq
- Comentários: Isso tem uma boa taxonomia em diferentes tipos de erro - por exemplo, compreensão , factualness , especificação , inferência .
LM vs LM: Detectando erros factuais por meio de exame cruzado
- Métricas: Precision, Recall, F1 (sob diferentes estratégias de interrogatório: AYS, IDK, baseada em confiança, IC-IDK)
- Conjuntos de dados: Triviaqa, NQ, Popqa
Rho (ρ): Reduzindo a alucinação em diálogos de domínio aberto com fundamento do conhecimento
- Métricas: Bleu, Rouge-L; Feqa, Quateval, EntityCoverage (Precision, Recall, F1) para estimar o grau de alucinação-FRQA e Questeval são métricas baseadas em controle de qualidade para avaliar a fidelidade da produção na tarefa de geração.
- Conjuntos de dados: opendialkg
FACTSCORE: Avaliação atômica de granulação fina da precisão factual em geração de texto de forma longa
- Métricas: %de declarações suportadas em níveis de frequência variados de entidades humanas.
- Conjuntos de dados: as biografias das pessoas geradas a partir do LLMS, onde os anotadores humanos os dividem em fatos de apoio.
ExpertQA: Perguntas com curação de especialistas e respostas atribuídas
- Métricas: Zero-Shot (P, R, F1) e Tune Fina (P, R, F1) dos Rótulos Automáticos; Pontuações FACTSCORE F1 nos rótulos de factualidade de referência; Autoais (atribuíveis a fontes identificadas).
- Datasets: Expert-curated questions across multiple fields (eg, Anthropology, Architecture, Biology, Chemistry, Engineering & Technology, Healthcare/Medicine; see Tab. 1 for a sample) organised by Question Type (eg, Directed question with single unambiguous answer, open-ended potentially ambiguous question, summarisation of information of a topic, advice or suggestion on how to approach a problem; see Tab. 2)
DOLA: Decodificação por camadas contrastantes melhora a factualidade em grandes modelos de linguagem
- Métricas: Verdadeffulqa: MC1, MC2, MC3 Scores; Fator: Notícias, Wiki; Estes foram resultados de múltipla escolha. Geração aberta: para a verdadeiraqua, eles usam %verdade, %info, %verdade*informação, %rejeitando; Para tarefas do COT (StrategyQA e GSM8K), eles seguem com precisão.
- Conjuntos de dados: verbyfulqa, fator (notícias/wiki), estratégiaqa, gsm8k
Freshllms: refrescando grandes modelos de linguagem com aumento do mecanismo de pesquisa
- Métricas: Precisão (rigorosa, relaxada em perguntas em rápida mudança, perguntas de mudança lenta, perguntas que nunca mudam, questões de imitação falsa envolvem conhecimento antes de 2022 e desde 2022, perguntas de 1-hop e multi-hop e em geral).
- Conjuntos de dados: FreshQA, um novo benchmark de controle de qualidade com 600 perguntas que cobrem um amplo espectro de tipos de perguntas e respostas.
Além da factualidade: uma avaliação abrangente de grandes modelos de linguagem como geradores de conhecimento
- Métricas: factualidade, relevância, coerência, informatividade, utilidade e validade.
- Conjuntos de dados: perguntas naturais, mago da Wikipedia.
Verificação complexa de reivindicações com evidências recuperadas na natureza
- Métricas: precisão, mae, macro-f1, precisão suave.
- Conjuntos de dados: reivindicações de reivindicação, que contém 1200 reivindicações complexas do Politifactl Cada reivindicação é rotulada com um dos seis rótulos de veracidade, um parágrafo de justificativa escrito por esperados verificadores de fatos e subquestões anotadas por trabalhos anteriores.
FELM: Avaliação de factualidade de benchmarking de grandes modelos de linguagem
- Métricas: precisão, F1/Precision/Recall.
- Conjuntos de dados: raciocínio, matemática, redação/rec, ciência/tecnologia, conhecimento mundial: gsm8k, chatgpt, matemática, verinfulqa, quora, mmlu/hc3.
Avaliando alucinações em grandes modelos de idiomas chineses
- Métricas: Avaliações de Humand e GPT-4.
- Conjuntos de dados: halluqa (que eles propõem) e mencionar a SiginfulQa, ChinesefactFactEal, Halueval.
Sobre fidelidade e factualidade em resumo abstrato
- Métricas: Rouge, Bertscore; Avaliação humana (identifique vãos alucinatórios e se é intrínseca ou extrínseca) - as alucinações intrínsecas são manipulações das informações no documento de entrada, enquanto as alucinações extrínsecas são informações não diretamente inferíveis a partir do documento de entrada. Os seres humanos foram convidados a anotar alucinações intrínsecas e extrínsecas.
- Conjuntos de dados: xsum.
Questeval: o resumo solicita avaliação baseada em fatos
- Métricas: Questeval (proposto neste trabalho), para testar consistência , coerência , fluência e relevância . Rouge, azul, meteoro, Bertscore. Summaqa, Qags.
- Conjuntos de dados: SumMeval, QAGS-Xsum, Esquadrão-V2.
QafacfactEval: Avaliação de consistência factual baseada em controle de qualidade para resumo
- Métricas: QafacfactEval (proposto neste trabalho), medindo a seleção de respostas, geração de perguntas, resposta a perguntas, sobreposição de respostas e filtragem/responsabilidade.
- Conjuntos de dados: Summac, uma coleção de benchmarks para avaliação de consistência factual binária; CGS, frases corretas e incorretas da CNN/DailyMail; Xsf; Politopo; Faccc; Sumval; Frank; QAGS.
Detecção de inconsistência factual rápida e precisa em documentos longos
- Métricas: escala (nova métrica proposta neste trabalho). Comparado com Q², Anli, Summac, F1, Bleurt, Quateval, Bartscore, Bertscore (Tabela 3).
- Conjuntos de dados: referência e screeneval True, novo conjunto de dados proposto neste trabalho para avaliar a inconsistência factual em diálogos de forma longa (52 documentos da Sumscreen).
Entendendo a factualidade em resumo abstrato com Frank: uma referência para as métricas de factualidade
- Métricas: Bertscore, Feqa, QGFS, DAE, FACTCC
- Conjuntos de dados: propuseram um novo conjunto de dados Frank: erros factuais anotados humanos para conjunto de dados CNN/DM e XSUM
Verdadeiro: reavaliando a avaliação de consistência factual
- Metrics: Q², Anli, Summac, Bleurt, Questeval, FACTCC, Bartscore, Bertscore
- Conjuntos de dados: consolidação de 11 conjuntos de dados anotados humanos diferentes para consistência fcual.
O curioso caso de responsabilidade alucinatória (não): encontrando verdades nos estados ocultos de modelos de linguagem grande demais
- Metrics: (Classificação) F-1, Match exata, (token) F-1
- Conjuntos de dados: esquadrão, questões naturais, musique
- Comentários: Este artigo Models explora o manuseio de (não) perguntas responsáveis pela LLMS em uma configuração de livro fechado, respondendo a uma pergunta com base em uma determinada passagem, onde a passagem não tem a resposta. O artigo mostra que, apesar da tendência do LLMS de alucinar as respostas contextuais, em vez de afirmar que não podem responder à pergunta, eles possuem entendimento interno da (não) responsabilidade da pergunta.
Os andróides sabem que estão sonhando apenas com ovelhas elétricas?
- Métricas: (detecção de alucinação) Nível de resposta F1, correspondência de crédito parcial no nível da altura F1
- Conjuntos de dados: CNN DailyMail, Convfever e E2E, de edição sinteticamente editada, rotulados em termos de alucinações de alucinações
- Comentários: Os modelos de idiomas sabem quando estão alucinando e podemos treinar sondas nos estados ocultos do LLM durante a decodificação para detectá -los com segurança.
A correção com o retorno reduz a alucinação em resumo
- Métricas: AlignScore, FACTCC, BS-FACT, ROUGE-L
- Conjuntos de dados: cnn/dm, xsum, redação
Detecção e edição de alucinação de granulação fina para modelos de idiomas
- Métricas: precisão, recall, F1.
- Conjuntos de dados: conjunto de dados de detecção/edição de alucinação de granulação fina
LLMs como raciocínio factual: insights de benchmarks existentes e além
- Métricas: precisão para vários tipos de erro - exemplos positivos, troca de data, troca de entidades, frases negadas, troca de números, troca de pronome.
- Conjuntos de dados: eles propõem o Sumdits, um benchmark de detecção de inconsistência de 10 domínios.
Avaliando a consistência factual do resumo abstrato de texto
- Métricas: eles propõem a FACTCC, uma métrica que mede a consistência factual da resumização abstrata de texto (intuição: um resumo é factualmente consistente se contiver os mesmos fatos que o documento de origem)
- Conjuntos de dados: CNN/DM para gerar dados de treinamento; MNLI e febre para modelos de treinamento. Experimentos baseados em humanos para avaliação sobre reivindicações sobre artigos da CNN/DM.
Summac: revisando os modelos baseados em NLI para detecção de inconsistência em resumo
- Métricas: Cada conjunto de dados vem com suas métricas (por exemplo, Cogensummm usa uma medida baseada em reranger; Xsumfaith, Sument e Frank propõe várias métricas e analisam como elas se correlacionam com as anotações humanas; etc.)-para Summac, os autores propõem a precisão equilibrada.
- Conjuntos de dados: eles propõem a Summac (consistência de resumo), uma referência que consiste em seis grandes conjuntos de dados de detecção de inconsistência: Cogensumm, Xsumfaith, Polytope, FACTCC, Sumval e Frank.
Sobre a origem das alucinações em modelos de conversação: são os conjuntos de dados ou os modelos?
- Métricas: anotações especializadas e não especialistas: alucinação parcial, helocência, alucinação, não-geral, genérico (cada uma dessas categorias possui mais subclasses de granulação fina-ver por exemplo, Fig. 2)-as anotações seguem as taxonomias iniciantes e VRM.
- Conjuntos de dados: Benchmarks de conversação fundamentados no conhecimento: Assistente de Wikipedia (WOW), CMU-DOG e TopicalChat-conjuntos de dados que consistem em diálogos entre dois alto-falantes em que o objetivo é comunicar informações sobre tópicos específicos enquanto os palestrantes são apresentados com um renome de conhecimento relevante para a virada atual.
Ensinar modelos de idiomas para alucinar menos com tarefas sintéticas
- Métricas: taxa de alucinação em várias configurações (original, com mensagem otimizada do sistema, com pesos completos de LLM, com dados sintéticos ou com misturas de dados sintéticos e de referência); Bleu, Rouge-1, Rouge-2, Rouge-L.
- Conjuntos de dados: pesquisa e retenção (MS MARCO), Resumo do Reunião (QMSUM), geração automatizada de relatórios clínicos (banco da ACI).
Estratégias de decodificação de consciência da fidelidade para resumo abstrato
- Métricas: Rouge-L, Bertscore, BS-FACT, FACTCC, DAE, Questeval
- Conjuntos de dados: cnn/dm, xsum
Amostragem de temperatura guiada por Divergência KL
- Métricas: QA de conversação: modelos ajustados em MNLI, snli, febre, patas, sctail e vitaminc. Resumo: Modelos ajustados em ANLI e XNLI.
- Conjuntos de dados: reescrita por perguntas no contexto de conversação (QRECC), xlsum.
Investigando alucinações em grandes modelos de linguagem para resumo abstrato
- Métricas: Métricas de Risco de Hallucinação (HARIM+), Summac, Summaczs, Summacconv, Razão de Risco de Hallucinação (HRR)
- Conjuntos de dados: FACTCC, Polytope, Sumval, Contratos Legais, RCT
Conflitos de conhecimento baseados em entidades na resposta a perguntas
- Métricas: EM, razão de memorização.
- Conjuntos de dados: nq dev com sobreposição de respostas (AO) e nenhuma sobreposição de resposta (NaO), newsqa.
TruthX: aliviando alucinações editando grandes modelos de idiomas no espaço verdadeiro
- Métricas: pontuações MC1/MC2/MC3 para tarefa de múltipla escolha do verdadeiro; %Verdade, %Informações, %Verdade*Informações da Truthffulqa Tarefa de geração aberta; Precisão de escolha para perguntas naturais, triviaqa e fator (notícias, especialista, wiki).
- Conjuntos de dados: verbyfulqa, questões naturais, triviaqa, fator (notícias, especialista, wiki)
A decomposição de perguntas melhora a fidelidade do raciocínio gerado pelo modelo
- Métricas: precisão, sensibilidade final sobre o truncamento da resposta, sensibilidade à corrupção da resposta final, mudança de precisão de contexto tendencioso.
- Conjuntos de dados: hotpotqa, OpenBookQA, StrategyQA, SiginfulQa.
Alucinações auto-contraditórias de grandes modelos de idiomas: avaliação, detecção e mitigação
- Métricas: para detecção: precisão, recall, F1. Para mitigação: a proporção de autocontradição removida, a proporção de fatos informativos retidos, a perplexidade aumentou.
- Conjuntos de dados: DataSet de geração de texto de nome aberto personalizado, descrições de texto enciclopédicas geradas por LLM para entidades da Wikipedia, POPQA.
Detectando alucinações em grandes modelos de idiomas usando entropia semântica
- Métricas: Para detecção: Auroc, Aurac.
- Conjuntos de dados: QA: Triviaqa, Esquadrão, Bioasq, NQ-Open, Svamp. Factualbio, um conjunto de dados de geração de biografia, acompanhando este artigo.
Elenco: Teste de similaridade de alinhamento cruzado para modelos de linguagem de visão
- Métricas: Propor o elenco, uma simples métrica de autoconsistência que busca avaliar se os modelos multimodais são consistentes entre as modalidades. Isso funciona em dois estágios, na primeira etapa os modelos geram semelhanças/declarações verdadeiras comparando duas entradas e, no segundo estágio, o modelo julga sua própria produção para a Verdadeira. Um modelo consistente deve, portanto, sempre avaliar suas próprias saídas como verdadeiras.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomias
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.