굉장한 hallucination 검출
이 저장소를 인용합니다
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
논문 및 요약
SAE 기반 표현 엔지니어링을 통해 LLM의 조향 지식 선택 행동
- 메트릭 : 정확한 일치
- 데이터 세트 : NQSUPAP, MACNOISE
- 의견 : SAE (Sparse Auto-Encoders)를 사용하여 상황에 맞는 지식 및 파라 메트릭 지식의 사용을 향상시키는 첫 번째 작업.
화성 : 생성 LLM의 불확실성 추정을위한 의미 인식 대응 점수
- 메트릭 : Auroc
- 데이터 세트 : Triviaqa, NaturalQA, WebQa
- 의견 : MARS라는 LLM 불확실성 추정 기법은 정확성에 더 크게 기여하는 토큰에 더 큰 가중치를 할당하여 길이 정규 확률 스코어링을 대체합니다.
설계, 학습 : 생성 LLM의 불확실성 추정을위한 훈련 가능한 점수 기능
- 지표 : Auroc, Prr
- 데이터 세트 : Triviaqa, GSM8K, NaturalQA, WebQa
- 의견 : LARS라는 LLM 불확실성 추정 기술은 입력으로 쿼리, 생성 및 토큰 확률을 취하는 인코더 기반 변압기를 훈련시키고 불확실성 점수를 출력으로 반환합니다.
모든 언어 모델의 답변에서 불확실성을 정량화하고 신뢰성 향상
- 메트릭 : 정확도, 정밀/리콜/auroc
- 데이터 세트 : Triviaqa, GSM8K, SVAMP, Common-Sense QA
- 의견 : LLM 불확실성 추정 기술은 자기 반사 확실성과 일관성을 단일 신뢰 점수로 결합한 BSDetector라고 불리는 불확실성 추정 기술입니다. 높은 정밀/리콜을 사용하여 잘못된/환각 된 LLM 응답을 감지하고 LLM 응답의 정확도를 자동으로 향상시킬 수 있습니다.
디코어 : 환각을 완화하기 위해 검색 헤드를 대조하여 디코딩
- 메트릭 : MC1, MC2, MC3 덕분에 MC3 점수; %진실, %정보, %진실*진실한 QA 개방형 생성 작업에 대한 정보; Open-Domain QA 작업 (NQ-Open, NQ-Swap, Triviaqa, Popqa, Musique)의 Subspan 정확한 일치; Memotrap의 정확도; ifeval의 프롬프트 수준 및 교육 수준 정확도.
- 데이터 세트 : Pruthfulqa, NQ-Open, NQ-Swap, Triviaqa, Popqa, Memotrap, ifeval, musique
신속한 세분화에서 수동 프롬프트 종속성을 줄이기 위해 환각 활용
- 메트릭 : Mae, F_ {Beta}, S_ {alpha}
- 데이터 세트 : 카멜레온, 카모, COD10K, CVC-COLONDB, KVASIR, ISIC
- 의견 : 첫 번째 연구는 환각을 순전히 부정적으로 간주하는 것이 아니라 모델 사전 훈련의 일반적인 측면으로 간주합니다. 환각을 직접 제거하는 이전 접근법과 달리, Promac은 먼저 환각을 자극하여 모델 사전 훈련에서 이미지에서 작업 관련 정보를 수집하기 위해 사전 지식을 채굴하도록 자극합니다. 그런 다음 부정적인 영향을 완화하기 위해 관련없는 환각을 제거합니다. 이 방법의 효과는 여러 도전적인 세분화 작업에서 입증되었습니다.
Grapheval : 지식 그래프 기반 LLM 환각 평가 프레임 워크
- 메트릭 : 정확도 (탐지), 루즈 (수정)
- 데이터 세트 : SummEval, QAGS-C, QAGS-X
- 의견 : 환각 검출 Grapheval 및 Corection 프레임 워크 GraphCorrect를 제안합니다. 환각 검출은 LLM 출력에서 kg 트리플을 추출하고 제공된 컨텍스트와 관련하여 트리플의 수입을 비교하여 수행됩니다. 환각을 포함 할 가능성이있는 트리플을 복용함으로써 (0.5 미만) LLM이 제공되는 컨텍스트와 관련하여 새로운 사실로 올바른 트리플을 생성하도록 촉구합니다. 그 후 별도의 추론 패스에서 LLM은 수정 된 트리플을 기반으로 비준수 LLM 출력의 정보를 교체하라는 메시지가 표시됩니다. 실험에 사용되는 기본 NLI 모델은 HHEM (DEBERTAV3), TRUE 및 TRUETECHER (T5-XXL)입니다. 사용 된 기본 LLM은 Claude2입니다. 최종 실험은 참조 텍스트와 제안 된 완화 방법 사이의 Rouge 점수를 계산하여 수행됩니다.
Lynx : 오픈 소스 환각 평가 모델
- 메트릭 : 정확도
- 데이터 세트 : Halubench (CovidQa, PubMedqa, Drop, FinanceBench 및 검색된 샘플을 기반으로 한 다른 섭동 세트의 ~ 500 랜덤 샘플로 구성됨)
- 의견 : 참조가없는 메트릭 평가를위한 리소스 Halubench 및 Lynx (LLAMA3-70BN-instruct 기반 모델)를 제안합니다. 초점은 도구 적 환각 평가에 중점을 둡니다. 즉, 세계 지식 대신 주어진 맥락에 충실한 답변을 의미합니다. Halubench에 대한 환각 된 예는 GPT-4O로 수집됩니다. Lynx의 훈련은 GPT4O를 사용하여 Ragtruth, Drop, Covidqa, PubMedQa의 2400 샘플에서 훈련 샘플의 일부로 생성 된 추론에 대해 수행됩니다. 평가는 컨텍스트에 대한 응답의 신실함을 나타내는 응답 수준 이진 레이블을 추출하여 수행됩니다.
LLMS는 그래프를 환각시킵니다. 구조적 관점
- 메트릭 : 그래프 편집 거리, 스펙트럼 거리, 정도 분포 사이의 거리.
- 데이터 세트 : 그래프 아틀라스 거리
- 의견 : 이 벤치 마크는 알려진 그래프 구조에 대한 LLM을 직접 프롬프트 할 수있는 기능을 제공합니다. LLM의 출력과 지상 진실 그래프의 거리가 연구됩니다. 그래프 편집 거리를 기반으로 한 순위는 환각 진폭에서 LLM을 정렬합니다.
HallusionBench : 대형 시력 모델에서 얽힌 언어 환각 및 시각적 환상을위한 고급 진단 스위트
- 메트릭 : 정확도.
- 데이터 세트 : HallusionBench
- 의견 : 이 벤치 마크는 시각적 데이터에 대한 미묘한 이해와 해석을 강조함으로써 GPT-4V (Vision), Gemini Pro Vision, Claude 3 및 LLAVA-1.5와 같은 고급 대규모 시각적 언어 모델 (LVLM)에 중대한 과제를 제시합니다. 이 논문은 제어 그룹을 설정하도록 설계된 이러한 시각적 질문에 대한 새로운 구조를 소개합니다. 이 구조는 모델의 응답 경향, 논리적 일관성 및 다양한 실패 모드에 대한 정량적 분석을 수행 할 수 있습니다.
멀티 모달 대형 언어 모델에 대한 통합 환각 감지
- 메트릭 : 정확도, F1/정밀/리콜.
- 데이터 세트 : mhalubench
- 프레임 워크 : UNIHD
- 의견 : 이 논문은 MLLM에서 환각 탐지를위한보다 통일 된 문제 설정을 제안하고, 다양한 환각 범주와 복합 작업을 포괄하는 메타 평가 벤치 마크 mhalubench를 공개하고, MMLM에 의해 생성 된 내용에서 환각의 검출을위한 통합 된 프레임 워크 인 UNIHD를 소개합니다.
Factchd : 벤치마킹 사실-분류 환각 탐지
- 메트릭 : 탐지의 F1, 설명 일치
- 데이터 세트 : FactChd
- 하이라이트 : 이 논문은 사실 분류 환각을 감지하는 데 중점을 둔 FactChd 벤치 마크를 소개합니다. Factchd는 여러 영역의 사실 지식을 통합하여 원시 사실, 멀티 홉 추론, 비교 및 설정 작업을 포함한 광범위한 사실 패턴을 포함합니다. 그것의 구별되는 특징은 사실 정보에 근거한 증거 체인을 결합하여 청구의 사실 또는 비준수를 예측하는 설득력있는 추론을 가능하게하는 목표에 있습니다.
주의 만족 : 언어 모델의 사실 오류에 대한 제약 조건 만족 렌즈
- 메트릭 : Auroc, 위험 커버 곡선 작동 지점
- 데이터 세트 : Counterfact, Wikidata에서 생성 된 사실 쿼리
- 의견 : 이 논문은 사실적인 쿼리를 제약 조건 문제로 모델링하고 제약 조건 토큰에 대한 관심이 사실적인 정확성/환각과 크게 관련이 있음을 발견합니다.
사실 : 사실 일관성 평가를 재평가합니다
- 메트릭 : 여러 데이터 세트 및 평가 방법에서 Auroc
- 데이터 세트 : 발
Trueteacher : 대형 언어 모델로 사실 일관성 평가 학습
- 메트릭 : 여러 데이터 세트 및 평가 방법에서 Auroc
- 데이터 세트 : XSUM, QAGS, Frank, SummEval
낭 $^3 $ : Semantic-Aware Cross-Check 일관성을 통해 블랙 박스 언어 모델의 신뢰할 수있는 환각 탐지
- 메트릭 : 정확도 및 Auroc : 분류 QA 및 Open-Domain QA
- 데이터 세트 : Snowball 환각, Hotpotqa 및 NQ-Open QA의 소수 및 상원 의원 검색
충실하고 추상적 인 대화 생성을위한 탄성 체중 제거
- 메트릭 : 예측 된 반응과 지상 진실 지식 사이의 신실함 (탭 1)-비평가, Q², Bert F1, F1.
- 데이터 세트 : Multiwoz 2.1, FaithDial의 Multiwoz 2.1의 DSTC9 및 DSTC11 연장선의 WOW (Wizard-of-Wikipedia), WOW의 DSTC11 확장.
당신의 증거 신뢰 : 상황 인식 디코딩으로 덜 환각
- 지표 : 요약의 사실 일관성 : BERT-PRECISION 및 FACTKB. Memotrap 및 NQ-Swap : 정확한 일치.
- 데이터 세트 : 요약 : CNN-DM, XSUM. 지식 충돌 : Memotrap, NQ-Swap.
언어 모델을 신뢰하지 않을 때 : 파라 메트릭 및 비모수 적 기억의 효과 조사
- 메트릭 : 정확한 일치/정확도.
- 데이터 세트 : 긴 꼬리 엔티티가있는 QA 데이터 세트 : POPQA, EntityQuestions; NQ.
검색 확대는 대화에서 환각을 줄입니다
- 메트릭 : 세대 : 당황, 유니그램 오버랩 (F1), Bleu-4, Rouge-L. 데이터 세트 수집 중에 인간이 근거가있는 생성과 지식 사이의 중첩 : 지식 F1; F1 : Rare F1을 계산할 때 데이터 세트에서 드문 단어 만 고려하십시오.
- 데이터 세트 : 와우, CMU 문서는 대화 (CMU_DOG)를 기반으로합니다. 지식 출처 : Kilt Wikipedia 덤프.
캘리브레이션을 요청 : 인간 피드백으로 미세 조정 된 언어 모델에서 교정 된 신뢰 점수를 이끌어 내기위한 전략
- 메트릭 : 온도 스케일링 (ECE-T)이있는 예상 교정 오차 (ECE); 정확도@적용 범위 및 적용 범위@정확도.
- 데이터 세트 : 질문 답변 데이터 세트에 대한 사실 지식 평가 : Triviaqa, Sciq, Pruthfulqa.
언어 모델 환각이 눈덩이를 할 수있는 방법
- 메트릭 : 오답의 비율 (환각) 및 "모델이 잘못되었다"(눈덩이 환각).
- 데이터 세트 : 원시 테스트, 상원 의원 검색, 그래프 연결.
우위 기반 오프라인 정책 그라디언트가있는 언어 모델 향상
- 메트릭 : FaithDial의 지식 지상 응답 생성에 대한 충실한 평가-Faithcritic, Cola (유창함), 대화 참여, 길이 임원 TF-IDF 다양성.
- 데이터 세트 : 충실한 지식 지상 대화 : FaithDial,보다 충실한 와우의 하위 집합.
자신감과 함께 생성 : 블랙 박스 대형 언어 모델에 대한 불확실성 정량화
- 메트릭 : Auroc, Auarc, 불확실성 및 신뢰 메트릭 (Numset, Deg, EIGV).
- 데이터 세트 : COQA (오픈 북 대화 QA 데이터 세트), Triviaqa 및 자연스러운 질문 (폐쇄 책 QA).
상황에 맞는 시퀀스 가능성 : 자연 언어 생성에 대한 신뢰 점수 향상
- 지표 : Auroc, Auarc; 신뢰 또는 불확실성 계산에 사용되는 향상된 서열 우도 (생성 시퀀스의 로그 확률).
- 데이터 세트 : COQA (오픈 북 대화 QA 데이터 세트), Triviaqa 및 자연스러운 질문 (폐쇄 책 QA).
FaithDial : 정보를 찾는 대화의 충실한 벤치 마크
- 메트릭 : 메트릭스는 주어진 지식에 대한 생성 된 반응의 환각 정도를 측정하거나 금의 충실한 반응과 겹치는 비평가, Q² (F1, NLI), Bertscore, F1, Bleu, Rouge를 측정합니다.
- 데이터 세트 : FaithDial, 와우.
신경 경로 사냥꾼 : 경로 접지를 통해 대화 시스템에서 환각 감소
- 지표 : Feqa, 신실한 지표; 비평가, 환각 비평가; 블루.
- 데이터 세트 : OpendialKG, KG의 경로에 기반한 개방형 대화 응답을 제공하는 데이터 세트.
Halueval : 대규모 환각 평가 벤치 마크
- 메트릭 : 정확도 : QA, 대화, 요약.
- 데이터 세트 : Halueval, 환각을 인식하는 데 LLM의 성능을 평가하기위한 생성 및 인간 주석 환각 샘플 모음.
대형 언어 모델의 자제 환각 : 평가, 탐지 및 완화
- 메트릭 : 문장 쌍을 생성 한 후 감지 작업에서 정밀, 리콜 및 F1 점수를 측정합니다.
- 데이터 세트 : Wikipedia에서 12 개의 선택된 주제.
대화식 질문 지식 정렬을 통한 언어 모델 환각 완화
- 메트릭 : 적용 범위 : 모든 올바른 금 답변 값이 생성 된 값에 포함되어 있는지 여부를 결정하는 이진 메트릭. 환각 : 질문 값과 금 접지 값에 존재하지 않는 생성 된 값의 존재를 평가하는 이진 지표. 사용자 시뮬레이터 : 대상 답변에 대한 귀속 정보에 액세스 할 수있는 "Oracle"언어 모델로서 사용자 시뮬레이터.
- 데이터 세트 : HybridDialogue 및 Musique를 기반으로 한 데이터 세트 인 Fuzzyqa는 chatgpt를 사용하여 복잡한 질문을 단순화했습니다.
사실을 확인하고 다시 시도하십시오 : 외부 지식과 자동화 된 피드백으로 대형 언어 모델 향상
- 메트릭스 : KF1, Bleu, Rouge, Chrf, Meteor, Bertscore, Bartscore, Bleurt, AVG 길이.
- 데이터 세트 : 뉴스 채팅 : DSTC7 트랙 2는 뉴스 대화의 평가 코퍼스로 용도 변경되었습니다. 고객 서비스 : DSTC11 트랙 5를 대화식 고객 서비스 시나리오에서 쇼케이스로 사용하여 주관적인 정보를 통합하여 DSTC9 트랙 1을 확장합니다.
SelfCheckgpt : 생성 대형 언어 모델을위한 제로 소스 블랙 박스 환각 감지
- 메트릭 : 문장 수준 환각 감지 (AUC-PR) 및 통과 수준 환각 감지 (Pearson and Spearman의 상관 계수).
- 데이터 세트 : 위키비오에서 위키 백과 기사를 생성하여 주석이 달린 환각.
LLM의 내부 상태는 언제 거짓말을하고 있는지 알고 있습니다.
- 메트릭 : 주제별 및 평균 정확도.
- 데이터 세트 : True-False 데이터 세트에는 도시, 발명, 화학 요소, 동물, 회사 및 과학적 사실 등 여러 주제를 다루는 참 및 허위 진술이 포함되어 있습니다.
지식 체인 : 구조화 된 지식 기반으로 대형 언어 모델을 접지하기위한 프레임 워크
- 메트릭 : 정확한 일치.
- 데이터 세트 : 열, 적대적 Hotpotqa.
후광 : 오픈 소스 약한 대형 언어 모델에서 환각의 추정 및 감소
- 메트릭 : Halocheck 및 Selfcheckgpt 점수; 일관성, 사실.
- 데이터 세트 : NBA 도메인에서 질문을 생성하고 검토했습니다.
타임 스티치 9 : 저렴한 생성을 검증하여 LLM의 환각을 감지하고 완화시킵니다.
- 메트릭 : 문장 수준 및 개념 수준의 환각을 감지 할 때 정밀도 및 리콜.
- 데이터 세트 : 다양한 도메인의 150 개 주제에 걸쳐 Chatgpt가 생성 한 단락.
추론 작업에 대한 대규모 언어 모델에 의한 환각 소스
- 메트릭 : 지향성 부과/홀트 정밀도 및 엔티티 삽입 및 교체로 리콜.
- 데이터 세트 : 주어진 [premise p]와 같이 포맷 된 작업을 가진 전제 가설 쌍을 포함하는 Levy/Holt 데이터 세트는 [가설 h]가 사실입니까? , 모델이 임의의 구내로 평가되는 곳.
대규모 다국어 번역 모델의 환각
- 메트릭 : MT 시스템이 섭동 하에서 환각을 생성하는 비율 (언어 쌍 분획, 요율).
- 데이터 세트 : Flores-101, Wmt, Tico.
인용 : 책임 있고 책임있는 대형 언어 모델을 구축하는 열쇠
- 메트릭 : 해당 없음
- 데이터 세트 : N/A.
대형 언어 모델에 대한 재료 환각 방지
- 메트릭 : 환각 교육 분류 : AUC, ACC, F1, PEA.
- 데이터 세트 : 개념 -7. 잠재적 환각 지침을 분류하는 데 중점을 둡니다.
RARR : 언어 모델을 사용하여 언어 모델의 말을 연구하고 수정합니다.
- 메트릭 : 편집 전후에 식별 된 소스 (AIS) 점수에 기인합니다.
- 데이터 세트 : 세 가지 데이터 세트에서 작업 입력을 생성하여 생성 된 진술과 다른 모델을 제시하여 환각을 포함 할 수있는 긴 형태의 출력을 생성하여 사실 문, 추론 체인 및 지식 집약적 인 대화입니다.
Q² : 질문 생성 및 질문 답변을 통한 지식 기반 대화의 사실 일관성 평가
- 메트릭 : Q²는 메트릭 자체이며 F1 토큰 수준의 중첩, 정밀 및 리콜, Q² W/O NLI, E2E NLI, Outdap, Bertscore 및 Bleu와 비교됩니다.
- 데이터 세트 : 봇이 지식이 풍부한 방식으로 사용자 입력에 응답 해야하는 대화가 포함 된 와우; 인간-인간 지식 지상 대화 데이터 세트 인 국소 차트; Dialogue NLI, 전제 가설 쌍으로 구성된 페르소나 채팅 대화 작업을 기반으로 한 데이터 세트.
우리가 모르는 것을 알고 있습니까? Squad 2.0 이외의 대답 할 수없는 질문을 공부합니다
- 메트릭 : EM은 모두 "답변"및 "idk"
- 데이터 세트 : MNLI, Squad 2.0, Ace-Whqa.
검증 체인은 큰 언어 모델에서 환각을 줄입니다
- 메트릭 : Wikidata 및 Wiki-Category List : 목록 기반 질문에 대한 테스트 정밀, 평균 긍정적 및 부정적 수 (환각) 엔티티; Multispanqa : F1, 정밀도, 리콜; 전기의 장기 세대 : 사실.
- 데이터 세트 : Wikidata, Wiki-Category List, Multispanqa, Longform Generation of Biographies.
다국어 요약에서 환각을 감지하고 완화
- 메트릭 : MFACT, DAE, QAFACTEVAL, ENFS%및 ENTFA의 4 개의 영어 신실성 지표에서 개발 된 소설 다국어 충실한 지표.
- 데이터 세트 : XL-SUM, 다국어 요약 데이터 세트.
환각이지만 사실! 추상적 요약에서 환각의 사실을 검사합니다
- 메트릭 : Xent : 환각 (정확도, f1), 사실 성 (정확도, f1), 루지, 새로운 n- 그램의 %, 신실함 ( % enfs, feqa, dae), entfa ( % 사실 ent., % hal.).
- 데이터 세트 : BART에 의해 생성 된 800 개의 요약으로 구성된 추상적 요약에서 엔티티 환각 및 사실을 분석하기위한 새로운 데이터 세트, XENT. XSUM에 대한 사실, 환각 주석 세트.
- 댓글 : 탭. 2는 여러 유형의 환각 (예 : 사실, 비 행위, 내재적)을 간략하게 설명합니다.
큰 언어 모델이 인용으로 텍스트를 생성 할 수 있도록합니다
- 메트릭 : 유창성 (Mauve), 정확성 (ASQA에 대한 Recema, Qampari의 Recall-5, ELI5에 대한 청구 리콜), 인용 품질 (인용 리콜, 인용 정밀도).
- 데이터 세트 : QA 데이터 세트 1) 참조가 중요한 사실 질문이 포함되어 있고 2) 질문에 대한 질문은 여러 측면을 다루는 긴 텍스트 답변이 필요하며 3) 질문에 답하려면 ASQA, QAMPARI, ELI5를 종합해야합니다.
프리 폼 텍스트 생성에 대한 토큰 수준의 참조 무료 환각 감지 벤치 마크
- 메트릭 : ACC, G-LEAN, BSS, AUC, 환각제 (P, R, F1), 환각 (P, R, F1).
- 데이터 세트 : Hades (환각 감지 데이터 세트), 영어 Wikipedia에서 추출한 많은 수의 텍스트 세그먼트를 섭취하여 크라우드 소스 주니로 검증하여 얻은 새로운 토큰 수준의 참조 주석이없는 환각 감지 데이터 세트.
- 의견 : 그림 3은 여러 환각 유형 (도메인 별 지식, 상식 지식, 불일치 또는 부적절한 배열, 중심 주제와 관련이없고 앞의 맥락과의 충돌, 후속 상황과의 충돌, ..)
언어 모델의 사실 평가를위한 벤치 마크 생성
- 메트릭 : 예제의 백분율은 사실 완료에 가장 높은 확률을 할당합니다.
- 데이터 세트 : Wiki-Factor 및 News Factor : Wikipedia 및 뉴스 기사를 기반으로 한 LLM에 대한 두 가지 새로운 사실 평가 벤치 마크. 각 예제는 접두사, 사실 완료 및 세 가지 유사하지만 비 현명한 대안으로 구성됩니다.
- 의견 : 이 논문은 섹션 3에 자세히 설명 된 주어진 코퍼스에서 이러한 데이터 세트를 자동으로 생성하기위한 프레임 워크를 소개합니다.
언어 모델은 참고 문헌을 환각시킬 때를 알고 있습니까?
- 메트릭 : 환각율 (H%, 1000 개 생성 타이틀)
- 데이터 세트 : ACM 컴퓨팅 분류 시스템의 주제에 대한 생성 (True and Dilucinated) 참조.
Chatgpt가 진실한 답변을 제공하는 데 부족한 이유는 무엇입니까?
- 메트릭 : #correct 및 #wrong 답변, 그리고 다른 유형의 실패 카운트 : 이해, 사실, 특이성, 추론.
- 데이터 세트 : Hotpotqa, Boolq
- 의견 : 이것은 다양한 오류 유형과 같은 분류법이 있습니다 (예 : 이해 , 사실 , 지정 , 추론 .
LM 대 LM : 교차 검사를 통한 사실 오류 감지
- 메트릭 : 정밀도, 리콜, F1 (다른 교차 심사 전략에 따라 : AYS, IDK, 자신감 기반, IC-IDK)
- 데이터 세트 : Triviaqa, NQ, Popqa
Rho (ρ) : 지식 근거가있는 오픈 도메인 대화에서 환각 감소
- 지표 : Bleu, Rouge-L; 환각 학위를 추정하기위한 Feqa, Questeval, EntityCoverage (Precision, Recall, F1) -FRQA 및 QuesteVal은 생성 작업의 결과물의 신실함을 평가하기위한 QA 기반 메트릭입니다.
- 데이터 세트 : opendialkg
FactScore : 장기 형태의 텍스트 생성에서 사실 정밀도의 세밀한 원자 평가
- 메트릭 : 인간 실체의 다양한 주파수 수준에 따른 %지원 된 진술.
- 데이터 세트 : LLM에서 생성 된 사람들의 전기는 인간의 주석이 그들을지지하는 사실로 분류합니다.
ExpertQA : 전문가가 정한 질문과 답변 답변
- 메트릭 : Autoais 레이블의 Zero-Shot (P, R, F1) 및 미세 조정 (P, R, F1); 참조 사실 레이블에서 FactScore F1 점수; Autoais (식별 된 출처에 기인 한) 점수.
- 데이터 세트 : 여러 분야에 걸쳐 전문가가 정한 질문 (예 : 인류학, 건축, 생물학, 화학, 공학 및 기술, 건강 관리/의학; 샘플의 경우 탭 참조) (예 : 단일 명백한 답변, 개방적 인 잠재적 모호한 질문, 주제에 대한 정보 또는 조언에 대한 제안 또는 제안에 대한 제안).
DOLA : 대조적 인 레이어로 디코딩하는 대형 언어 모델의 사실을 향상시킵니다.
- 메트릭 : Truthffulqa : MC1, MC2, MC3 점수; 요인 : 뉴스, 위키; 이것들은 객관식 결과였습니다. 개방형 세대 : Pruthfulqa의 경우 %진실, %정보, %진실*정보, %거부를 사용합니다. COT 작업 (StrategyQA 및 GSM8K)의 경우 정확도로 사용됩니다.
- 데이터 세트 : PrurefulQa, Factor (News/Wiki), StrategyQA, GSM8K
Freshllms : 검색 엔진 확대로 대형 언어 모델을 새로 고치고 있습니다
- 메트릭 : 정확도 (빠르게 변화하는 질문, 느리게 변화하는 질문, 변화없는 질문에 대한 엄격하고 편안한, 허위 질문에는 2022 년 전과 2022 년, 1 홉 및 멀티 홉 질문 및 전반적으로 지식이 포함됩니다).
- 데이터 세트 : FreshQA, 광범위한 질문 및 답변 유형을 다루는 600 개의 질문이있는 새로운 QA 벤치 마크.
사실을 넘어서 : 지식 생성기로서 큰 언어 모델의 포괄적 인 평가
- 메트릭 : 사실, 관련성, 일관성, 정보 성, 도움 및 타당성.
- 데이터 세트 : 자연스러운 질문, 위키 백과 마법사.
야생에서 검색 된 증거로 복잡한 청구 검증
- 메트릭 : 정확도, Mae, Macro-F1, 소프트 정확도.
- 데이터 세트 : PolitifActl의 1200 개의 복잡한 주장이 포함 된 ClaimDeComp 각 청구에는 6 개의 진실성 레이블 중 하나, 예상 사실 확인자가 작성한 정당화 단락 및 이전 작업에 의해 주석을 달린 하위 질문이 표시됩니다.
FELM : 대형 언어 모델의 벤치마킹 사실 평가
- 메트릭 : 정확도, F1/정밀/리콜.
- 데이터 세트 : 추론, 수학, 작문/rec, 과학/기술, 세계 지식 : GSM8K, Chatgpt, Math, Pruthfulqa, Quora, MMLU/HC3.
중국 대형 언어 모델의 환각 평가
- 메트릭 : Humand 및 GPT-4 평가.
- 데이터 세트 : Halluqa (그들이 제안하는), Pruthfulqa, ChineseFacteval, Halueval을 언급합니다.
추상적 요약의 신실함과 사실에
- 지표 : Rouge, Bertscore; 인간 평가 (환각 스팬을 식별하고, 본질적인지 외적인지 여부) - 본질적인 환각은 입력 문서의 정보를 조작하는 반면, 외부 환각은 입력 문서에서 직접 추론 할 수없는 정보입니다. 인간은 고유 및 외부 환각에 주석을달라고 요청 받았다.
- 데이터 세트 : XSUM.
QuesteVal : 요약은 사실 기반 평가를 요구합니다
- 메트릭 : 일관성 , 일관성 , 유창성 및 관련성 테스트를위한 QuesteVal (이 작업에서 제안). 루지, 블루, 유성, 버트 코어. Summaqa, QAGS.
- 데이터 세트 : SummEval, QAGS-XSUM, Squad-V2.
Qafacteval : 요약을위한 QA 기반 사실 일관성 평가 향상
- 메트릭 : Qafacteval (이 작업에서 제안), 답변 선택, 질문 생성, 질문 답변, 답변 중복 및 필터링/답변 측정.
- 데이터 세트 : Summac, 이진 사실 일관성 평가를위한 벤치 마크 모음; CGS, CNN/Dailymail의 정확하고 잘못된 문장; XSF; 폴리 토프; 팩트 CC; SummEval; 솔직한; qags.
긴 문서에 대한 빠르고 정확한 사실 불일치 감지
- 메트릭 : 스케일 (이 작업에서 제안 된 새로운 메트릭). Q², Anli, Summac, F1, Bleurt, Questeval, Bartscore, Bertscore와 비교했습니다 (표 3).
- 데이터 세트 : 진정한 벤치 마크 및 ScreeneVal,이 작업에서 제안 된 새로운 데이터 세트는 장기적인 대화 (Summscreen의 52 문서)에서 사실 불일치를 평가하기 위해이 작업에서 제안되었습니다.
Frank와의 추상적 요약에서 사실 성 이해 : 사실 메트릭을위한 벤치 마크
- 지표 : Bertscore, Feqa, QGFS, DAE, Factcc
- 데이터 세트 : 새로운 데이터 세트 제안 Frank : CNN/DM 및 XSUM 데이터 세트에 대한 인간 주석은 사실 오류
사실 : 사실 일관성 평가를 재평가합니다
- 지표 : Q², Anli, Summac, Bleurt, Questeval, Factcc, Bartscore, Bertscore
- 데이터 세트 : fctual 일관성을 위해 11 개의 서로 다른 인간 주석이 달린 데이터 세트의 통합.
환각제 (un) 대답의 호기심 : 과도하게 자신감있는 큰 언어 모델의 숨겨진 상태에서 진실을 찾는 것
- 메트릭 : (분류) F-1, 정확한 일치, (토큰) F-1
- 데이터 세트 : 분대, 자연스러운 질문, musique
- 의견 : 이 논문 모델은 폐쇄 책 설정에서 LLMS의 답변 가능한 질문에 대한 LLMS 처리, 즉 구절에 답이없는 주어진 구절을 기반으로 질문에 답하는 것을 탐구합니다. 이 논문은 LLMS의 상황에 맞는 대답을 환각시키는 경향에도 불구하고 질문에 대답 할 수 없다고 말하기보다는 질문의 (UN) 답변에 대한 내부적 이해를 가지고 있음을 보여준다.
안드로이드는 그들이 전기 양을 꿈꾸고 있다는 것을 알고 있습니까?
- 메트릭 : (환각 감지) 응답 레벨 F1, 스팬 레벨 부분 신용 일치 F1
- 데이터 세트 : 환각을 위해 스팬로 표시된 유기적으로 생성 및 합성 적으로 편집 된 CNN Dailymail, Convfever 및 E2E
- 의견 : 언어 모델은 환각시기를 알고 있으며 디코딩 중에 LLM 숨겨진 상태에서 프로브를 훈련시켜 안정적으로 감지 할 수 있습니다.
역 추적으로 수정하면 요약에서 환각이 줄어 듭니다
- 메트릭 : AlignScore, FactCC, BS-Fact, Rouge-L
- 데이터 세트 : CNN/DM, XSUM, 뉴스 룸
언어 모델의 세밀한 환각 탐지 및 편집
- 메트릭 : 정밀, 리콜, F1.
- 데이터 세트 : 다양한 유형의 (사실) 환각에 대한 맞춤형 미세한 환각 탐지/편집 데이터 세트 : 엔티티, 관계, 모순, 발명, 주관적, 검증 불가능.
사실 추론 자로서의 LLM : 기존 벤치 마크와 그 이후의 통찰력
- 메트릭 : 긍정적 인 예제, 날짜 스왑, 엔티티 스왑, 부정 문장, 번호 스왑, 대명사 스왑.
- 데이터 세트 : 10 도메인 불일치 탐지 벤치 마크 인 Summedits를 제안합니다.
추상적 텍스트 요약의 사실 일관성을 평가합니다
- 메트릭 : 추상적 텍스트 요약의 사실 일관성을 측정하는 메트릭 인 FactCC를 제안합니다 (직관 : 요약은 소스 문서와 동일한 사실을 포함하는 경우 실제로 일관됩니다).
- 데이터 세트 : 교육 데이터 생성을위한 CNN/DM; 훈련 모델을위한 MNLI 및 열. CNN/DM 기사에 대한 주장에 대한 평가를위한 인간 기반 실험.
Summac : 요약에서 불일치 감지를 위해 NLI 기반 모델을 다시 방문합니다
- 메트릭 : 각 데이터 세트에는 메트릭이 포함되어 있습니다 (예 : Cogensumm은 재 속임 기반 측정 값을 사용합니다. Xsumfaith, Summeval 및 Frank는 몇 가지 메트릭을 제안하고 인간 주석과 상관 관계가있는 방법을 분석합니다)-Summac의 경우 저자는 균형 정확도를 사용하여 제안합니다.
- 데이터 세트 : Cogensumm, Xsumfaith, 폴리 토프, Factcc, Summeval 및 Frank와 같은 6 가지 큰 불일치 감지 데이터 세트로 구성된 벤치 마크 인 Summac (Summary Alpery)를 제안합니다.
대화 모델에서 환각의 기원 : 데이터 세트 또는 모델입니까?
- 메트릭 : 전문가 및 비 엑스 퍼트 주석 : 부분 환각, 수분, 환각, uncoop, 제네릭 (이러한 각 범주에는 더 세밀한 하위 클래스가 있습니다-예를 들어, 그림 2 참조)-주석은 시작 및 VRM 분류법을 따릅니다.
- 데이터 세트 : 지식 지상 대화 벤치 마크 : WIKIPEDIA (WOW), CMU-DOG 및 TONICALCHAT의 마법사-두 스피커 간의 대화로 구성된 데이터 세트는 특정 주제에 대한 정보를 전달하는 반면 스피커는 현재 턴과 관련된 지식 스 니펫을 제공합니다.
합성 작업으로 언어 모델을 덜 환각시키기 위해 언어 모델을 가르치십시오
- 메트릭 : 여러 설정의 환각율 (최적화 된 시스템 메시지, 완전한 LLM 가중치, 합성 데이터 또는 합성 및 기준 데이터의 혼합물이 포함 된 원본); Bleu, Rouge-1, Rouge-2, Rouge-L.
- 데이터 세트 : Search-and-Retrieve (MS Marco), 회의 요약 (QMSUM), 자동 임상 보고서 생성 (ACI-Bench).
추상적 요약을위한 충실한 인식 디코딩 전략
- 메트릭 : Rouge-L, Bertscore, BS-Fact, Factcc, Dae, Questeval
- 데이터 세트 : CNN/DM, XSUM
KL-divergence 안내 온도 샘플링
- 메트릭 : 대화식 QA : MNLI, SNLI, 열, 발, SCTAT 및 비타민에서 미세 조정 된 모델. 요약 : Anli 및 Xnli에서 미세 조정 된 모델.
- 데이터 세트 : 대화 컨텍스트 (QRECC), XLSUM에서 질문 재 작성.
추상적 요약을 위해 가지 치기 된 대형 언어 모델의 환각 조사
- 지표 : 환각 위험 메트릭 (Harim+), Summaczs, SummACConv, 환각 위험 비율 (HRR)
- 데이터 세트 : Factcc, Polytope, Summeval, Legal Contracts, Rct
실체 기반의 지식이 상충되는 대답
- 메트릭 : EM, 암기 비율.
- 데이터 세트 : 답변 중 오버랩 (AO) 및 NAO (Answer Overpap), Newsqa가있는 NQ Dev.
TruthX : 진실한 공간에서 큰 언어 모델을 편집하여 환각 완화
- 메트릭 : Truthffulqa 객관식 작업에 대한 MC1/MC2/MC3 점수; %진실, %정보, %진실*진실의 정보 개방형 생성 작업에 대한 정보; 자연 질문, Triviaqa 및 Factor (뉴스, 전문가, 위키)에 대한 선택 정확도.
- 데이터 세트 : Pruthfulqa, 자연스러운 질문, Triviaqa, 요소 (뉴스, 전문가, 위키)
질문 분해는 모델 생성 된 추론의 신실함을 향상시킵니다
- 메트릭 : 정확도, 최종 답변 자리 자르기 민감도, 최종 답변 손상 감도, 편향 컨텍스트 정확도 변경.
- 데이터 세트 : Hotpotqa, OpenBookqa, StrategyQa, PruthfulQa.
대형 언어 모델의 자제 환각 : 평가, 탐지 및 완화
- 메트릭 : 탐지 : 정밀, 리콜, F1. 완화의 경우 : 자제력이 제거 된 비율, 유익한 사실의 비율이 유지되고 당황 스러움이 증가했습니다.
- 데이터 세트 : 사용자 정의 오픈 도메인 텍스트 생성 데이터 세트, Wikipedia Entities, POPQA에 대한 LLM 생성 백과 사전 텍스트 설명.
시맨틱 엔트로피를 사용하여 큰 언어 모델에서 환각을 감지합니다
- 메트릭 : 탐지 : Auroc, Aurac.
- 데이터 세트 : QA : Triviaqa, Squad, BioASQ, NQ-Open, Svamp. 이 백서와 함께 전기 생성 데이터 세트 인 FactualBio.
캐스트 : 비전 언어 모델에 대한 교차 모달 정렬 유사성 테스트
- 메트릭 : Multimodal 모델이 양식에 걸쳐 일관된 지 여부를 평가하려는 간단한 자기 일관성 지표 인 Cast를 제안하십시오. 이것은 두 단계에서 작동하며, 첫 번째 단계에서 모델은 두 입력을 비교하는 유사성/진술을 생성하며, 두 번째 단계에서는 모델이 진실성을위한 자체 출력을 판단합니다. 따라서 일관된 모델은 항상 자체 출력을 사실로 평가해야합니다.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback 프레임 워크.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.