deteksi hallucinasi yang luar biasa
Mengutip repositori ini
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
Makalah dan Ringkasan
Perilaku Pemilihan Pengetahuan Mengarahkan di LLMS melalui Rekayasa Representasi Berbasis SAE
- Metrik: Pertandingan yang tepat
- Dataset: NQSWAP, MacNoise
- Komentar: Pekerjaan pertama yang menggunakan Auto-encoder yang jarang (SAE) untuk meningkatkan penggunaan pengetahuan kontekstual dan parametrik.
Mars: Penilaian respons yang sadar makna untuk estimasi ketidakpastian dalam llms generatif
- Metrik: Auroc
- Dataset: Triviaqa, NaturalQA, WebQA
- Komentar: Teknik estimasi ketidakpastian LLM yang disebut Mars menggantikan penilaian probabilitas yang dinormalisasi panjang dengan menetapkan bobot yang lebih besar ke token yang berkontribusi lebih signifikan terhadap kebenaran.
Jangan mendesain, pelajari: fungsi penilaian yang dapat dilatih untuk estimasi ketidakpastian di llms generatif
- Metrik: Auroc, Prr
- Dataset: Triviaqa, GSM8K, NaturalQA, WebQA
- Komentar: Teknik Estimasi Ketidakpastian LLM yang disebut Lars melatih transformator berbasis enkoder yang mengambil kueri, generasi, dan probabilitas token sebagai input dan mengembalikan skor ketidakpastian sebagai output
Mengukur ketidakpastian dalam jawaban dari model bahasa apa pun dan meningkatkan kepercayaan mereka
- Metrik: akurasi, presisi/recall/auroc
- Dataset: Triviaqa, GSM8K, SVAMP, QA-Sense QA
- Komentar: Teknik estimasi ketidakpastian LLM yang disebut BSDetector yang menggabungkan kepastian refleksi diri dan mengamati konsistensi menjadi skor kepercayaan tunggal. Mendeteksi respons LLM yang salah/berhalusinasi dengan presisi/penarikan yang tinggi, dan juga dapat secara otomatis meningkatkan keakuratan respons LLM.
Decore: Decoding dengan membandingkan kepala pengambilan untuk mengurangi halusinasi
- Metrik: Skor MC1, MC2, MC3 untuk tugas pilihan ganda yang jujur; %Kebenaran, %info, %kebenaran*info untuk tugas generasi terbuka yang jujur; kecocokan persis subspan untuk tugas-tugas QA domain terbuka (NQ-Open, NQ-SWAP, Triviaqa, Popqa, Musique); akurasi untuk memotrap; Akurasi tingkat prompt dan tingkat instruksi untuk IfEval.
- Datasets: Futhulqa, NQ-Open, NQ-SWAP, Triviaqa, Popqa, Memotrap, Ifeval, Musique
Memanfaatkan halusinasi untuk mengurangi ketergantungan cepat manual di segmentasi yang cepat
- Metrik: mae, f_ {beta}, s_ {alpha}
- Dataset: Chameleon, CAMO, COD10K, CVC-COLONDB, KVASIR, ISIC
- Komentar: Studi pertama tidak menganggap halusinasi sebagai murni negatif, tetapi sebagai aspek umum dari model pra-pelatihan. Tidak seperti pendekatan sebelumnya yang secara langsung menghilangkan halusinasi, Promac pertama-tama merangsang halusinasi untuk menambang pengetahuan sebelumnya dari model pra-pelatihan untuk mengumpulkan informasi yang relevan dengan tugas dalam gambar. Kemudian, itu menghilangkan halusinasi yang tidak relevan untuk mengurangi dampak negatif mereka. Efektivitas metode ini telah ditunjukkan dalam berbagai tugas segmentasi yang menantang.
Grapheval: Kerangka Evaluasi Halusinasi LLM Berbasis Pengetahuan
- Metrik: Akurasi (Deteksi), Rouge (Koreksi)
- Dataset: Summeval, Qags-C, Qags-X
- Komentar: mengusulkan grapheval deteksi halusinasi dan kerangka kerja graphcorrect . Deteksi halusinasi dilakukan dengan mengekstraksi tiga kali lipat dari output LLM dan membandingkan persyaratan tiga kali lipat sehubungan dengan konteks yang disediakan. Koreksi dilakukan dengan mengambil tiga kali lipat kemungkinan mengandung halusinasi (ikut serta di bawah 0,5) kemudian mendorong LLM untuk menghasilkan triple baru yang benar secara faktual sehubungan dengan konteks yang disediakan. Setelah itu dalam lulus inferensi terpisah, LLM diminta untuk mengganti informasi dalam output LLM non-faktual berdasarkan triple yang dikoreksi. Model NLI yang mendasari yang digunakan untuk percobaan adalah HHEM (DeBertAV3), True dan Trueteacher (T5-XXL). LLM yang mendasari yang digunakan adalah Claude2. Eksperimen akhir dilakukan dengan menghitung skor Merah antara teks referensi dan metode mitigasi yang diusulkan.
Lynx: Model Evaluasi Halusinasi Sumber Terbuka
- Metrik: Akurasi
- Dataset: Halubench (terdiri dari ~ 500 sampel acak dari Covidqa, PubMedqa, Drop, FinanceBench dan serangkaian gangguan lainnya berdasarkan sampel yang diambil)
- Komentar: Mengusulkan sumber daya halubench dan lynx (model berbasis llama3-70bn-instruksi) untuk evaluasi metrik bebas referensi. Fokusnya adalah pada evaluasi halusinasi instrinsik, yang berarti jawaban yang setia pada konteks yang diberikan alih -alih pengetahuan dunia. Contoh berhalusinasi untuk halubench dikumpulkan dengan GPT-4O. Pelatihan Lynx dilakukan pada 2400 sampel dari Ragtruth, Drop, Covidqa, PubMedqa dengan GPT4O menghasilkan penalaran sebagai bagian dari sampel pelatihan. Evaluasi dilakukan dengan mengekstraksi label biner tingkat respons yang menunjukkan kesetiaan respons terhadap konteksnya.
LLMS Halucinate Graphs juga: Perspektif Struktural
- Metrik: Grafik Edit Jarak, jarak spektral, jarak antara distribusi derajat.
- Dataset: Grafik Jarak Atlas
- Komentar: Benchmark ini menyajikan kemampuan untuk secara langsung meminta LLMS untuk struktur grafik yang diketahui. Jarak dari output LLMS dan grafik kebenaran tanah dipelajari. Peringkat berdasarkan grafik edit jarak mengurutkan llms dalam amplitudo halusinasi mereka.
HallusionBench: Suite diagnostik canggih untuk halusinasi bahasa terjerat dan ilusi visual dalam model bahasa penglihatan yang besar
- Metrik: Akurasi.
- Dataset: HallusionBench
- Komentar: Benchmark ini menghadirkan tantangan yang signifikan bagi model bahasa visual besar (LVLM) yang canggih, seperti GPT-4V (Visi), Gemini Pro Vision, Claude 3, dan LLAVA-1.5, dengan menekankan pemahaman yang bernuansa dan interpretasi data visual. Makalah ini memperkenalkan struktur baru untuk pertanyaan visual yang dirancang untuk membangun kelompok kontrol. Struktur ini mampu melakukan analisis kuantitatif kecenderungan respons model, konsistensi logis, dan berbagai mode kegagalan.
Deteksi Halusinasi Terpadu untuk Model Bahasa Multimodal Besar
- Metrik: Akurasi, F1/Precision/Recall.
- Dataset: Mhalubench
- Kerangka kerja: unihd
- Komentar: Makalah ini mengusulkan pengaturan masalah yang lebih disatukan untuk deteksi halusinasi dalam MLLMS, mengungkap berbagai meta-evaluasi mhalubench yang mencakup berbagai kategori halusinasi dan tugas multimoda, dan memperkenalkan UNIHD, kerangka kerja terpadu untuk deteksi halusinasi dalam konten yang diproduksi oleh Mllm.
FACTCHD: Benchmarking Deteksi Halusinasi Faktanya
- Metrik: F1 deteksi, kecocokan penjelasan
- Dataset: FACTCHD
- Sorotan: Makalah ini memperkenalkan tolok ukur FACTCHD, yang berfokus pada mendeteksi halusinasi yang konflik pada fakta. FACTCHD mengintegrasikan pengetahuan faktual dari berbagai domain, mencakup berbagai pola fakta, termasuk fakta mentah, penalaran multi-hop, perbandingan, dan pengaturan operasi. Fitur yang membedakannya terletak pada tujuannya untuk menggabungkan rantai bukti yang berakar pada informasi faktual, memungkinkan penalaran persuasif dalam memprediksi faktualitas atau non-faktualitas klaim.
Perhatian memuaskan: lensa kepuasan-kendala pada kesalahan faktual model bahasa
- Metrik: AUROC, titik operasi kurva risiko-kemasuan
- Dataset: kueri counterfact, faktual yang dihasilkan dari wikidata
- Komentar: Makalah ini memodelkan kueri faktual sebagai masalah keteguhan-kepuasan dan menemukan bahwa perhatian terhadap token kendala berkorelasi secara signifikan dengan kebenaran/halusinasi faktual.
Benar: Evaluasi Ulang Evaluasi Konsistensi Faktual
- Metrik: AUROC, di beberapa dataset dan metode evaluasi
- Dataset: Paws, Xsum, Qags, Frank, Summeval, Begin, Q^2, Dialfact, Demam, Vitaminc
TrueTeacher: Belajar Evaluasi Konsistensi Faktual Dengan Model Bahasa Besar
- Metrik: AUROC, di beberapa dataset dan metode evaluasi
- Dataset: Xsum, Qags, Frank, Summeval
KANTUNG $^3 $ : Deteksi halusinasi yang andal dalam model bahasa black-box melalui konsistensi cross-check semantik
- Metrik: Akurasi dan AUROC: Klasifikasi QA dan Open-Domain QA
- Dataset: Pencarian nomor utama dan Senator dari halusinasi bola salju, hotpotqa dan NQ-open QA
Penghapusan berat elastis untuk generasi dialog yang setia dan abstraktif
- Metrik: Kesetiaan antara respons yang diprediksi dan pengetahuan darat (Tab. 1)-kritikus, q², Bert F1, F1.
- Dataset: Wizard-of-Wikipedia (WOW), ekstensi DSTC9 dan DSTC11 dari Multiwoz 2.1, FaithDial-subset WOW yang tidak berdaya.
Mempercayai bukti Anda: kurang berhalusinasi dengan decoding sadar konteks
- Metrik: Konsistensi Faktual Ringkasan: Bert-Presisi dan FactKB. Memotrap dan NQ-SWAP: Pencocokan tepat.
- Dataset: Peringkasan: CNN-DM, XSUM. Konflik Pengetahuan: Memotrap, NQ-SWAP.
Ketika tidak mempercayai model bahasa: menyelidiki efektivitas ingatan parametrik dan non-parametrik
- Metrik: kecocokan/akurasi yang tepat.
- Dataset: Dataset QA dengan entitas ekor panjang: POPQA, EntityQuestions; Nq.
Augmentasi pengambilan mengurangi halusinasi dalam percakapan
- Metrik: Generasi: Kebingungan, Unigram Overlap (F1), Bleu-4, Rouge-L. Tumpang tindih antara generasi dan pengetahuan yang menjadi dasar manusia selama pengumpulan dataset: Pengetahuan F1; Hanya pertimbangkan kata -kata yang jarang terjadi dalam dataset saat menghitung F1: Rare F1.
- Dataset: Wow, CMU Dokumen Grounded Conversations (CMU_DOG). Sumber Pengetahuan: Kilt Wikipedia Dump.
Mintalah Kalibrasi: Strategi untuk memunculkan skor kepercayaan yang dikalibrasi dari model bahasa disesuaikan dengan umpan balik manusia
- Metrik: Kesalahan kalibrasi yang diharapkan (ECE) dengan penskalaan suhu (ECE-T); akurasi@cakupan dan cakupan@akurasi.
- Kumpulan Dataset: Dataset Penjawab Pertanyaan Menilai Pengetahuan Faktual: Triviaqa, Sciq, Futlefulqa.
Bagaimana Halusinasi Model Bahasa bisa bola salju
- Metrik: Persentase jawaban yang salah (halusinasi) dan kasus di mana "model tahu itu salah" (halusinasi bola salju).
- Dataset: Pengujian Primalitas, Pencarian Senator, Konektivitas Grafik.
Meningkatkan model bahasa dengan gradien kebijakan offline berbasis keuntungan
- Metrik: Evaluasi Kesetiaan untuk Generasi Respons Berdasarkan Pengetahuan tentang FaithDial-FaithCritic, Cola (Flexing), keterlibatan dialog, keanekaragaman TF-IDF yang panjang.
- Dataset: Dialog Berdasarkan Pengetahuan yang Setia: FaithDial, subset WoW yang lebih setia.
Menghasilkan dengan percaya diri: kuantifikasi ketidakpastian untuk model bahasa besar kotak hitam
- Metrik: AUROC, AUARC, Ketidakpastian dan Metrik Keyakinan (NUMSET, DEG, EIGV).
- Dataset: CoQA (Dataset QA Conversational Buku Terbuka), Triviaqa dan Pertanyaan Alami (QA Buku Tertutup).
Kemungkinan urutan kontekstual: skor kepercayaan diri yang ditingkatkan untuk generasi bahasa alami
- Metrik: Auroc, Auarc; Peningkatan urutan kemungkinan (probabilitas log dari urutan yang dihasilkan) digunakan dalam kepercayaan kepercayaan atau ketidakpastian.
- Dataset: CoQA (Dataset QA Conversational Buku Terbuka), Triviaqa dan Pertanyaan Alami (QA Buku Tertutup).
FaithDial: Benchmark yang setia untuk dialog pencarian informasi
- Metrik: Metrik mengukur tingkat halusinasi respons yang dihasilkan WRT terhadap beberapa pengetahuan yang diberikan atau tumpang tindih dengan tanggapan setia emas: kritikus, q² (f1, nli), bertscore, f1, bleu, rouge.
- Dataset: FaithDial, wow.
Neural Path Hunter: Mengurangi halusinasi dalam sistem dialog melalui landasan jalur
- Metrik: Feqa, metrik kesetiaan; Kritikus, seorang kritikus halusinasi; Bleu.
- Dataset: OpenDialKG, dataset yang menyediakan respons dialog terbuka yang didasarkan pada jalur dari kg.
HALUEVAL: Benchmark evaluasi halusinasi skala besar
- Metrik: Akurasi: QA, Dialog, Ringkasan.
- Dataset: Halueval, kumpulan sampel berhalusinasi yang dihasilkan dan dianotasi manusia untuk mengevaluasi kinerja LLMS dalam mengenali halusinasi.
Halusinasi Kontradiktif Diri dari Model Bahasa Besar: Evaluasi, Deteksi dan Mitigasi
- Metrik: Setelah menghasilkan pasangan kalimat, mengukur presisi, penarikan, dan skor F1 dalam tugas deteksi.
- Dataset: 12 Topik Terpilih dari Wikipedia.
Mitigasi Model Bahasa Halusinasi dengan Penyelarasan Knowledge Interaktif
- Metrik: Cakupan : Metrik biner yang menentukan apakah semua nilai jawaban emas yang benar termasuk dalam nilai yang dihasilkan. Halusinasi : Indikator biner yang menilai keberadaan nilai -nilai yang dihasilkan yang tidak ada dalam nilai pertanyaan dan nilai landasan emas. Simulator Pengguna : Simulator Pengguna sebagai model bahasa "Oracle" dengan akses ke informasi atribusi tentang jawaban target.
- Dataset: Fuzzyqa, dataset berdasarkan hybriddialogue dan musique di mana pertanyaan kompleks disederhanakan menggunakan chatgpt.
Periksa fakta Anda dan coba lagi: Meningkatkan model bahasa besar dengan pengetahuan eksternal dan umpan balik otomatis
- Metrik: KF1, Bleu, Rouge, Chrf, Meteor, Bertscore, Bartscore, Bleurt, Panjang AVG.
- Dataset: Obrolan Berita: DSTC7 Track 2 digunakan kembali sebagai corpus evaluasi untuk percakapan berita. Layanan Pelanggan: Menggunakan DSTC11 Track 5 sebagai showcase dalam skenario layanan pelanggan percakapan, memperluas DSTC9 Track 1 dengan memasukkan informasi subyektif.
SelfCheckGpt: Deteksi halusinasi Zero-Resource Black-Box untuk Model Bahasa Besar Generatif
- Metrik: Deteksi halusinasi tingkat kalimat (AUC-PR), dan deteksi halusinasi tingkat lorong (koefisien korelasi Pearson dan Spearman).
- Dataset: Artikel Wikipedia yang dihasilkan dari Wikibio, dengan halusinasi beranotasi.
Keadaan internal seorang LLM tahu kapan itu berbohong
- Metrik: akurasi per topik dan rata-rata.
- Kumpulan Dataset: Dataset nyata-False berisi pernyataan yang benar dan salah yang mencakup beberapa topik-kota, penemuan, elemen kimia, hewan, perusahaan, dan fakta ilmiah.
Rantai Pengetahuan: Kerangka kerja untuk membumikan model bahasa besar dengan basis pengetahuan terstruktur
- Metrik: Pertandingan yang tepat.
- Dataset: demam, hotpotqa permusuhan.
HALO: Estimasi dan Pengurangan Halusinasi dalam Sumber Terbuka Model Bahasa Besar Lemah
- Metrik: skor halocheck dan selfcheckgpt; konsistensi, faktualitas.
- Dataset: pertanyaan yang dihasilkan dan ditinjau dalam domain NBA.
Jahitan dalam waktu menghemat sembilan: mendeteksi dan mengurangi halusinasi LLMS dengan memvalidasi generasi kepercayaan rendah
- Metrik: Presisi dan penarikan kembali saat mendeteksi halus tingkat kalimat dan tingkat konsep.
- Dataset: paragraf yang dihasilkan chatgpt yang mencakup 150 topik dari beragam domain.
Sumber halusinasi oleh model bahasa besar pada tugas inferensi
- Metrik: Presisi Directional Levy/Holt dan Recall dengan penyisipan entitas dan penggantian.
- Dataset: Dataset Levy/Holt, berisi pasangan hipotesis premis dengan tugas yang diformat seperti yang diberikan [premis P], apakah benar [hipotesis h]? , di mana model dievaluasi dengan tempat acak.
Halusinasi dalam model terjemahan multibahasa besar
- Metrik: Tingkat yang sistem MT menghasilkan halusinasi di bawah gangguan (fraksi pasangan bahasa, tingkat).
- Dataset: Flores-101, WMT, Tico.
Kutipan: Kunci untuk membangun model bahasa besar yang bertanggung jawab dan bertanggung jawab
- Metrik: N/A.
- Dataset: N/A.
Pencegahan halusinasi nol-sumber daya untuk model bahasa besar
- Metrik: Klasifikasi instruksi halusinasi: AUC, ACC, F1, PEA.
- Dataset: Konsep-7, yang berfokus pada mengklasifikasikan potensi instruksi halusinasi.
RARR: Meneliti dan merevisi apa yang dikatakan model bahasa, menggunakan model bahasa
- Metrik: Dikaitkan dengan skor sumber yang diidentifikasi (AIS) sebelum dan sesudah pengeditan.
- Dataset: Pernyataan yang dihasilkan dengan membuat input tugas dari tiga set data dan mendorong model yang berbeda untuk menghasilkan output bentuk panjang yang mungkin mengandung halusinasi-pernyataan factoid, rantai penalaran, dan dialog intensif pengetahuan.
Q²: Mengevaluasi Konsistensi Faktual dalam Dialog Berdasarkan Pengetahuan melalui Pembuatan Pertanyaan dan Jawaban Pertanyaan
- Metrik: Q² adalah metrik itu sendiri, dan dibandingkan dengan f1 token level tumpang tindih, presisi dan penarikan, q² w/o nli, e2e nli, tumpang tindih, Bertscore, dan bleu.
- Dataset: Wow yang berisi dialog di mana bot perlu menanggapi input pengguna dengan cara yang berpengetahuan; Topikal-obrolan, dataset percakapan yang dikeluarkan manusia manusia; Dialog NLI, dataset berdasarkan tugas dialog persona-obrolan yang terdiri dari pasangan hipotesis premis.
Apakah kita tahu apa yang tidak kita ketahui? Mempelajari pertanyaan yang tidak dapat dijawab di luar Squad 2.0
- Metrik: mereka di semua, "punya jawaban", dan "idk"
- Dataset: MNLI, Skuad 2.0, ACE-WHQA.
Rantai-verifikasi mengurangi halusinasi dalam model bahasa besar
- Metrik: Daftar Wikidata dan Wiki-Category: Tes Precision, Jumlah Rata-rata Entitas Positif dan Negatif (Halusinasi) untuk Pertanyaan Berbasis Daftar; Mulpispanqa: F1, Precision, Recall; Generasi BIOGRIA LANGUP: FACTSCORE.
- Dataset: Wikidata, daftar kategori wiki, multispanqa, generasi biografi yang lama.
Mendeteksi dan meringankan halusinasi dalam peringkasan multibahasa
- Metrik: MFACT, sebuah metrik yang setia multibahasa yang dikembangkan dari empat metrik kesetiaan Inggris: DAE, QAFACTEVAL, ENFS%, dan ENTFA.
- Dataset: XL-SUM, dataset ringkasan multibahasa.
Dihalukasi tetapi faktual! Memeriksa faktualitas halusinasi dalam peringkasan abstraktif
- Metrik: xent: halusinasi (akurasi, f1), faktualitas (akurasi, f1), rouge, % novel n-gram, kesetiaan ( % enfs, feqa, dae), entfa ( % factual ent., % Factual Hal.)
- Dataset: Dataset baru, xent, untuk menganalisis halusinasi entitas dan faktualitas dalam peringkasan abstrak, yang terdiri dari 800 ringkasan yang dihasilkan oleh BART dan dijelaskan. Ment, serangkaian anotasi faktualitas dan halusinasi untuk Xsum.
- Komentar: Tab. 2 menguraikan beberapa jenis halusinasi (misalnya, faktual, non-faktual, intrinsik).
Mengaktifkan model bahasa besar untuk menghasilkan teks dengan kutipan
- Metrik: Kelancaran (Mauve), Kebenaran (EM Recall untuk ASQA, Recall-5 untuk Qampari, Klaim Recall untuk ELI5), Kualitas Kutipan (Penarikan Kutipan, Presisi Kutipan).
- Dataset: Dataset QA sedemikian rupa sehingga 1) mereka berisi pertanyaan faktual di mana referensi penting, 2) pertanyaan memerlukan jawaban teks panjang yang mencakup banyak aspek, dan 3) menjawab pertanyaan memerlukan mensintesis berbagai sumber: ASQA, QAMPARI, ELI5.
Benchmark Deteksi Halusinasi Bebas Referensi Token untuk Pembuatan Teks Formulir Gratis
- Metrik: ACC, G-Mean, BSS, AUC, bukan halusinasi (P, R, F1), halusinasi (P, R, F1).
- Kumpulan Dataset: Hades (Dataset Deteksi Halusinasi), sebuah dataset deteksi halusinasi yang dianotasi dengan rujukan yang diperoleh dengan tingkat referensi yang diperoleh dengan mengganggu sejumlah besar segmen teks yang diekstraksi dari Wikipedia Inggris dan diverifikasi dengan anotasi yang bersumber dari kerumunan.
- Komentar: Gbr. 3 menguraikan beberapa jenis halusinasi (pengetahuan khusus domain, pengetahuan yang masuk akal, ketidakcocokan atau kolokasi yang tidak tepat, tidak terkait dengan topik sentral, konflik dengan konteks sebelumnya, konflik dengan konteks berikutnya, ..)
Menghasilkan tolok ukur untuk evaluasi faktualitas model bahasa
- Metrik: Persentase contohnya memberikan probabilitas tertinggi untuk penyelesaian faktual.
- Dataset: Faktor Wiki dan Faktor Berita: Dua tolok ukur evaluasi faktualitas baru untuk LLMS, berdasarkan Wikipedia dan artikel berita. Setiap contoh terdiri dari awalan, penyelesaian faktual dan tiga alternatif yang serupa tetapi tidak aktif.
- Komentar: Makalah ini memperkenalkan kerangka kerja untuk secara otomatis menghasilkan dataset tersebut dari korpus yang diberikan, dirinci dalam Bagian 3.
Apakah model bahasa tahu kapan mereka berhalusinasi referensi?
- Metrik: Tingkat Halusinasi (H%, dari 1000 judul yang dihasilkan)
- Dataset: Referensi yang dihasilkan (benar dan berhalusinasi) tentang topik -topik dari sistem klasifikasi komputasi ACM.
Mengapa chatgpt gagal dalam memberikan jawaban yang jujur?
- Metrik: #correct dan #wrong Answers, dan berbagai jenis kegagalan jumlah: pemahaman, faktual, spesifisitas, inferensi.
- Dataset: Hotpotqa, Boolq
- Komentar: Ini memiliki taksonomi yang bagus pada jenis kesalahan yang berbeda - misalnya, pemahaman , faktual , spesifikasi , inferensi .
LM vs LM: Mendeteksi kesalahan faktual melalui pemeriksaan silang
- Metrik: Precision, Recall, F1 (di bawah berbagai strategi pemeriksaan silang: ays, idk, berbasis kepercayaan, IC-IDK)
- Dataset: Triviaqa, NQ, Popqa
Rho (ρ): Mengurangi halusinasi dalam dialog domain terbuka dengan landasan pengetahuan
- Metrik: Bleu, Rouge-L; FEQA, Questeval, EntityCoverage (Precision, Recall, F1) untuk memperkirakan tingkat halusinasi-FRQA dan Questeval adalah metrik berbasis QA untuk mengevaluasi kesetiaan output dalam tugas generasi.
- Dataset: OpenDialKg
FactScore: Evaluasi atom berbutir halus dari ketepatan faktual dalam pembuatan teks bentuk panjang
- Metrik: %pernyataan yang didukung di berbagai tingkat frekuensi entitas manusia.
- Dataset: Biografi orang yang dihasilkan dari LLMS, di mana annotator manusia memecahnya menjadi fakta pendukung.
ExpertQA: Pertanyaan yang dikuratori ahli dan jawaban yang dikaitkan
- Metrik: Zero-shot (p, r, f1) dan disesuaikan (p, r, f1) label autoais; FactScore skor F1 pada label faktualitas referensi; Autoais (disebabkan oleh sumber yang diidentifikasi) skor.
- Dataset: Pertanyaan yang dikuratori ahli di berbagai bidang (misalnya, antropologi, arsitektur, biologi, kimia, teknik & teknologi, perawatan kesehatan/kedokteran; lihat Tab.
DOLA: Decoding dengan membatasi lapisan meningkatkan faktualitas dalam model bahasa besar
- Metrik: Truthffulqa: MC1, MC2, Skor MC3; Faktor: Berita, Wiki; Ini adalah hasil pilihan ganda. Generasi terbuka: Untuk jujur, mereka menggunakan %kebenaran, %info, %kebenaran*info, %tolak; Untuk tugas COT (StrategyQA dan GSM8K) mereka menggunakan akurasi.
- Datasets: Faktorfulqa, Factor (News/Wiki), StrategyQA, GSM8K
Freshllms: Model bahasa besar yang menyegarkan dengan augmentasi mesin pencari
- Metrik: Akurasi (ketat, santai pada pertanyaan yang cepat berubah, pertanyaan yang lambat berubah, pertanyaan yang tidak pernah berubah, pertanyaan premis palsu melibatkan pengetahuan sebelum 2022 dan sejak 2022, pertanyaan 1-hop dan multi-hop, dan secara keseluruhan).
- Dataset: FreshQA, tolok ukur QA baru dengan 600 pertanyaan yang mencakup berbagai jenis tanya jawab.
Beyond Factuity: Evaluasi komprehensif model bahasa besar sebagai generator pengetahuan
- Metrik: Faktualitas, Relevansi, Koherensi, Keablama, Bantuan dan Validitas.
- Dataset: Pertanyaan Alami, Wizard of Wikipedia.
Verifikasi klaim kompleks dengan bukti yang diambil di alam liar
- Metrik: akurasi, MAE, makro-F1, akurasi lunak.
- Dataset: ClaimDecomp, yang berisi 1.200 klaim kompleks dari PolitiFactL setiap klaim diberi label dengan salah satu dari enam label kebenaran, paragraf justifikasi yang ditulis oleh perkiraan pemeriksaan fakta, dan sub-pertanyaan yang dianotasi oleh karya sebelumnya.
Felm: Benchmarking Evaluasi Faktualitas Model Bahasa Besar
- Metrik: Akurasi, F1/Precision/Recall.
- Kumpulan Dataset: Penalaran, Matematika, Menulis/Rek, Sains/Teknologi, Pengetahuan Dunia: GSM8K, Chatgpt, Matematika, Sejujurnya, Quora, MMLU/HC3.
Mengevaluasi Halusinasi dalam Model Bahasa Besar Cina
- Metrik: Humand dan GPT-4 Evaluasi.
- Dataset: Halluqa (yang mereka usulkan), dan sebutkan jujur, chinesefacteval, halueval.
Tentang kesetiaan dan faktualitas dalam peringkasan abstraktif
- Metrik: Rouge, Bertscore; Penilaian manusia (mengidentifikasi rentang halusinasi, dan apakah itu intrinsik atau ekstrinsik) - halusinasi intrinsik adalah manipulasi informasi dalam dokumen input, sedangkan halusinasi ekstrinsik adalah informasi yang tidak secara langsung disimpulkan dari dokumen input. Manusia diminta untuk memberi anotasi halusinasi intrinsik dan ekstrinsik.
- Dataset: xsum.
Questeval: Summarisasi meminta evaluasi berbasis fakta
- Metrik: Questeval (diusulkan dalam karya ini), untuk pengujian konsistensi , koherensi , kelancaran , dan relevansi . Rouge, Blue, Meteor, Bertscore. Summaqa, Qags.
- Dataset: Summeval, Qags-Xsum, Squad-V2.
QAFACTEVAL: Peningkatan evaluasi konsistensi faktual berbasis QA untuk peringkasan
- Metrik: QAFACTEVAL (diusulkan dalam karya ini), mengukur seleksi jawaban, pembuatan pertanyaan, menjawab pertanyaan, jawaban tumpang tindih, dan penyaringan/kemampuan menjawab.
- Dataset: Summac, kumpulan tolok ukur untuk evaluasi konsistensi faktual biner; CGS, kalimat yang benar dan salah dari CNN/DailyMail; Xsf; Polytope; Factcc; Summeval; JUJUR; Qags.
Deteksi inkonsistensi faktual yang cepat dan akurat atas dokumen panjang
- Metrik: Skala (metrik baru yang diusulkan dalam karya ini). Dibandingkan dengan Q², Anli, Summac, F1, Bleurt, Questeval, Bartscore, Bertscore (Tabel 3).
- Dataset: Benchmark dan Screeneval True, dataset baru yang diusulkan dalam pekerjaan ini untuk menilai ketidakkonsistenan faktual dalam dialog bentuk panjang (52 dokumen dari SummScreen).
Memahami faktualitas dalam peringkasan abstraktif dengan Frank: tolok ukur untuk metrik faktualitas
- Metrik: Bertscore, Feqa, QGFS, DAE, FACTCC
- Kumpulan Dataset: Diusulkan Dataset Baru Frank: Kesalahan faktual beranotasi manusia untuk dataset CNN/DM dan XSUM
Benar: Evaluasi Ulang Evaluasi Konsistensi Faktual
- Metrik: Q², Anli, Summac, Bleurt, Questeval, Factcc, Bartscore, Bertscore
- Kumpulan Dataset: Konsolidasi 11 Dataset Beranotasi Manusia yang Berbeda untuk Konsistensi Fctual.
Kasus penasaran halusinasi (PBB) Jawab: Menemukan kebenaran dalam keadaan tersembunyi model bahasa besar yang terlalu percaya diri
- Metrik: (Klasifikasi) F-1, pertandingan yang tepat, (token) F-1
- Dataset: Pasukan, Pertanyaan Alami, Musique
- Komentar: Model ini mengeksplorasi penanganan LLMS atas pertanyaan (PBB) yang dapat dijawab dalam pengaturan buku tertutup, yaitu menjawab pertanyaan berdasarkan bagian yang diberikan, di mana bagian itu tidak memiliki jawabannya. Makalah ini menunjukkan bahwa terlepas dari kecenderungan LLMS untuk berhalusinasi jawaban kontekstual, daripada menyatakan bahwa mereka tidak dapat menjawab pertanyaan, mereka memiliki pemahaman internal tentang kemampuan menjawab pertanyaan (PBB).
Apakah Android tahu mereka hanya memimpikan domba listrik?
- Metrik: (Deteksi Halusinasi) Level Tingkat F1, Pencocokan Kredit Parsial Level SPAN F1
- Dataset: Dailymail, Convfever, dan E2E yang dihasilkan secara organik dan sintetis, konvfever, dan e2e, berlabel ranah untuk halusinasi
- Komentar: Model bahasa tahu kapan mereka berhalusinasi, dan kita dapat melatih probe di negara -negara tersembunyi LLM selama decoding untuk secara andal mendeteksi mereka.
Koreksi dengan backtracking mengurangi halusinasi dalam ringkasan
- Metrik: AlignScore, Factcc, BS-Fact, Rouge-L
- Dataset: CNN/DM, XSUM, Ruang Berita
Deteksi dan pengeditan halusinasi berbutir halus untuk model bahasa
- Metrik: Presisi, Recall, F1.
- Dataset: Dataset Deteksi/Pengeditan Halusinasi Berbutut Kustom untuk berbagai jenis halusinasi (faktual): entitas, relasi, kontradiktif, diciptakan, subyektif, tidak dapat diverifikasi.
LLMS sebagai alasan faktual: wawasan dari tolok ukur yang ada dan seterusnya
- Metrik: Akurasi untuk berbagai jenis kesalahan - contoh positif, swap tanggal, swap entitas, kalimat yang dinegasikan, pertukaran angka, kata ganti pertukaran.
- Kumpulan Dataset: Mereka mengusulkan Simpits, tolok ukur deteksi inkonsistensi 10-domain.
Mengevaluasi Konsistensi Faktual Ringkasan Teks Abstraktif
- Metrik: Mereka mengusulkan factcc, sebuah metrik yang mengukur konsistensi faktual dari ringkasan teks abstraktif (intuisi: ringkasan secara faktual konsisten jika berisi fakta yang sama dengan dokumen sumber)
- Dataset: CNN/DM untuk menghasilkan data pelatihan; MNLI dan demam untuk model pelatihan. Eksperimen berbasis manusia untuk evaluasi klaim tentang artikel CNN/DM.
Summac: Mengunjungi kembali model berbasis NLI untuk deteksi inkonsistensi dalam peringkasan
- Metrik: Setiap dataset dilengkapi dengan metriknya (misalnya, Cogensumm menggunakan ukuran berbasis reranking; Xsumfaith, Summeval, dan Frank mengusulkan beberapa metrik dan menganalisis bagaimana mereka berkorelasi dengan anotasi manusia; dll.)-Untuk Summac, penulis mengusulkan menggunakan akurasi seimbang.
- Kumpulan Dataset: Mereka mengusulkan Summac (konsistensi ringkasan), tolok ukur yang terdiri dari enam dataset deteksi inkonsistensi besar: Cogensumm, Xsumfaith, Polytope, Factcc, Summeval, dan Frank.
Pada asal halusinasi dalam model percakapan: apakah itu dataset atau model?
- Metrik: Anotasi ahli dan non-ahli: halusinasi parsial, upacara, halusinasi, uncoop, generik (masing-masing kategori ini memiliki sub-kelas yang lebih halus-lihat misalnya, Gbr. 2)-Anotasi mengikuti taksonomi awal dan VRM.
- Kumpulan Dataset: Tolok Ukur Percakapan Berdasarkan Pengetahuan: Wizard of Wikipedia (WOW), CMU-DOG, dan TopicalChat-Dataset yang terdiri dari dialog antara dua pembicara di mana tujuannya adalah untuk mengkomunikasikan informasi tentang topik tertentu sementara pembicara disajikan dengan cuplikan pengetahuan yang relevan dengan giliran tersebut.
Mengajar Model Bahasa untuk Halusinat Kurang Dengan Tugas Sintetis
- Metrik: Laju halusinasi dalam beberapa pengaturan (asli, dengan pesan sistem yang dioptimalkan, dengan bobot LLM penuh, dengan data sintetis, atau dengan campuran data sintetis dan referensi); Bleu, Rouge-1, Rouge-2, Rouge-l.
- Dataset: Pencarian dan Retrieve (MS Marco), rapat ringkasan (QMSUM), generasi laporan klinis otomatis (ACI-Bench).
Strategi decoding yang sadar kesetiaan untuk ringkasan abstraktif
- Metrik: Rouge-L, Bertscore, BS-FACT, FACTCC, DAE, Questeval
- Dataset: CNN/DM, XSUM
Pengambilan sampel suhu yang dipandu oleh KL
- Metrik: Conversational QA: Model disesuaikan pada MNLI, SNLI, demam, cakar, sctail, dan vitaminc. Peringkasan: Model disesuaikan dengan anli dan xnli.
- Kumpulan Dataset: Pertanyaan Penulisan ulang dalam Konteks Conversational (QRECC), XLSUM.
Investigasi halusinasi dalam model bahasa besar yang dipangkas untuk peringkasan abstraktif
- Metrik: Metrik Risiko Halusinasi (Harim+), Summac, Summaczs, SummacConV, Rasio Risiko halusinasi (HRR)
- Dataset: Factcc, Polytope, Summeval, Kontrak Hukum, RCT
Konflik pengetahuan berbasis entitas yang dipertanyakan
- Metrik: EM, rasio menghafal.
- Dataset: NQ Dev dengan jawaban tumpang tindih (AO) dan tidak ada jawaban tumpang tindih (NAO), newsqa.
Truthx: Mengurangi halusinasi dengan mengedit model bahasa besar dalam ruang yang benar
- Metrik: skor MC1/MC2/MC3 untuk tugas pilihan ganda TroltFFulqa; %Kebenaran, %info, %kebenaran*info untuk tugas pembuatan terbuka TruthFulqa; Akurasi pilihan untuk pertanyaan alami, triviaqa dan faktor (berita, ahli, wiki).
- Kumpulan Dataset: Sejujurnya, Pertanyaan Alami, Triviaqa, Faktor (Berita, Pakar, Wiki)
Pertanyaan Dekomposisi Meningkatkan Kesetiaan Penalaran yang Dibebaskan Model
- Metrik: Akurasi, sensitivitas pemotongan jawaban akhir, sensitivitas korupsi jawaban akhir, perubahan akurasi bias-konteks.
- Dataset: Hotpotqa, OpenBookQA, StrategyQA, Futlefulqa.
Halusinasi Kontradiktif Diri dari Model Bahasa Besar: Evaluasi, Deteksi dan Mitigasi
- Metrik: Untuk deteksi: presisi, recall, f1. Untuk mitigasi: rasio kontradiksi diri dihapus, rasio fakta informatif dipertahankan, kebingungan meningkat.
- Dataset: Dataset Pembuatan Teks Open-Domain Kustom, Deskripsi Teks Encyclopedic yang Dibebaskan LLM untuk Entitas Wikipedia, PopQA.
Mendeteksi halusinasi dalam model bahasa besar menggunakan entropi semantik
- Metrik: Untuk deteksi: Auroc, Aurac.
- Dataset: QA: Triviaqa, Skuad, Bioasq, NQ-Open, Svamp. FactualBio, dataset generasi biografi, menyertai makalah ini.
Pemeran: Uji Kesamaan Penyelarasan Modal Modal untuk Model Bahasa Visi
- Metrik: Usulan Cast, metrik konsistensi diri sederhana yang berupaya mengevaluasi apakah model multimodal konsisten di seluruh modalitas. Ini bekerja dalam dua tahap, pada tahap pertama model menghasilkan kesamaan/pernyataan yang benar yang membandingkan dua input, dan pada tahap kedua model menilai outputnya sendiri untuk kebenaran. Oleh karena itu model yang konsisten harus selalu mengevaluasi outputnya sendiri sebagai benar.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.