اكتشاف رائع
نقلا عن هذا المستودع
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
الأوراق والملخصات
سلوكيات اختيار المعرفة التوجيهية في LLMS عبر هندسة التمثيل القائم على SAE
- المقاييس: مطابقة بالضبط
- مجموعات البيانات: NQSWAP ، MacNoise
- التعليقات: أول عمل يستخدم أدوات التوقيت التلقائي المتفرقة (SAES) لتعزيز كل من استخدام المعرفة السياقية والدورية.
المريخ: تسجيل استجابة مدرك المعنى لتقدير عدم اليقين في LLMS التوليد
- المقاييس: AUROC
- مجموعات البيانات: triviaqa ، naturalqa ، webqa
- التعليقات: تقنية تقدير عدم اليقين LLM تسمى MARS تحل محل تسجيل الاحتمال الطويل الطول عن طريق تعيين أوزان أكبر للرموز التي تسهم بشكل أكثر أهمية في الصواب.
لا تصمم ، تعلم: وظيفة تسجيل قابلة للتدريب لتقدير عدم اليقين في LLMs التوليد
- المقاييس: AUROC ، PRR
- مجموعات البيانات: TriviaQa ، GSM8K ، NaturalQA ، WebQA
- التعليقات: تقنية تقدير عدم اليقين LLM تسمى LARS تدرب محولًا قائمًا على التشفير يأخذ احتمالات الاستعلام والتوليد والرمز المميز كمدخلات وإرجاع درجة عدم اليقين كإخراج
تحديد عدم اليقين في الإجابات من أي نموذج لغة وتعزيز جدارة بالثقة
- المقاييس: الدقة ، الدقة/الاستدعاء/AUROC
- مجموعات البيانات: TriviaQa ، GSM8K ، Svamp ، QA السليم
- التعليقات: تقنية تقدير عدم اليقين LLM تسمى BSDETECTUR التي تجمع بين اليقين الانعكاس الذاتي والاتساق الملاحظة في درجة ثقة واحدة. يكتشف استجابات LLM غير الصحيحة/الهلنية بدقة/استدعاء عالية ، ويمكن أيضًا تعزيز دقة استجابات LLM.
ديكورنت: فك التشفير من خلال تباين رؤوس الاسترجاع لتخفيف الهلوسة
- المقاييس: درجات MC1 ، MC2 ، MC3 لمهمة المخططات المتعددة الأصلية ؛ ٪ الحقيقة ، ٪ معلومات ، ٪ الحقيقة*معلومات عن مهمة الجيل المفتوح الصادق ؛ تطابق Subspan بالضبط لمهام ضمان الجودة المفتوحة (NQ-Open ، NQ-SWAP ، Triviaqa ، Popqa ، Musique) ؛ دقة memotrap. الدقة على مستوى التعليم ومستوى التعليمات لـ Ifeval.
- مجموعات البيانات: reuchfulqa ، nq-open ، nq-swap ، triviaqa ، popqa ، memotrap ، ifeval ، musique
الاستفادة من الهلوسة للحد من التبعية اليدوية في التجزئة القابلة للآثار
- المقاييس: Mae ، f_ {beta} ، s_ {alpha}
- مجموعات البيانات: الحرباء ، CAMO ، COD10K ، CVC-Colondb ، Kvasir ، ISIC
- التعليقات: لا تعتبر الدراسة الأولى الهلوسة سلبية بحتة ، ولكن كجانب شائع من التدريب قبل النموذج. على عكس الأساليب السابقة التي تقضي بشكل مباشر على الهلوسة ، تحفز ProMAC أولاً الهلوسة على استخراج المعرفة السابقة من النموذج قبل التدريب لجمع المعلومات ذات الصلة بالمهمة في الصور. ثم ، فإنه يلغي الهلوسة غير ذات الصلة لتخفيف تأثيرها السلبي. وقد تم توضيح فعالية هذه الطريقة في مهام تجزئة متعددة صعبة.
Grapheval: إطار تقييم هلوسة الهلوسة القائم على المعرفة.
- المقاييس: الدقة (الكشف) ، روج (تصحيح)
- مجموعات البيانات: Summeval ، Qags-C ، Qags-X
- التعليقات: يقترح GraphCorrect GraphCorrect الإطار الكشف عن الهلوسة. يتم اكتشاف الهلوسة عن طريق استخراج Triples KG من إخراج LLM ومقارنة ما يستلزمه الثلاثي فيما يتعلق بالسياق المقدم. يتم التصحيح عن طريق أخذ ثلاث مرات من المحتمل أن يحتوي على الهلوسة (يستنتج أقل من 0.5) ، ثم يدفع LLM لإنشاء ثلاثية جديدة صحيحة في الواقع فيما يتعلق بالسياق المقدم. بعد ذلك في تمريرة الاستدلال المنفصل ، يُطلب من LLM استبدال المعلومات في إخراج LLM غير الواقع بناءً على الثلاثي المصحح. نماذج NLI الأساسية التي يتم استخدامها للتجارب هي HHEM (DeBertav3) ، True و Truetacher (T5-XXL). LLM الأساسي المستخدم هو Claude2. يتم إجراء التجارب النهائية عن طريق حساب درجات Rouge بين النص المرجعي وطريقة التخفيف المقترحة.
Lynx: نموذج تقييم الهلوسة مفتوح المصدر
- المقاييس: الدقة
- مجموعات البيانات: Halubench (تتكون من حوالي 500 عينة عشوائية من Covidqa ، PubMedqa ، Drop ، FinanceBench ومجموعة أخرى من الاضطرابات بناءً على العينات التي تم استردادها)
- التعليقات: يقترح موارد Halubench و Lynx (Llama3-70bn-instruct model) لتقييم متري خالي من المرجع. ينصب التركيز على تقييم الهلوسة الآسيوي ، وهذا يعني الإجابات المؤمن بالسياق المعطى بدلاً من المعرفة العالمية. يتم جمع الأمثلة الهلوسة لـ Halubench مع GPT-4O. يتم تدريب Lynx على 2400 عينة من Ragtruth و Drop و Covidqa و PubMedqa مع التفكير الذي تم إنشاؤه GPT4O كجزء من عينات التدريب. يتم التقييم عن طريق استخراج علامة ثنائية على مستوى الاستجابة تشير إلى إخلاص الاستجابة للسياق.
LLMS هلوسة الرسوم البيانية أيضًا: منظور هيكلي
- المقاييس: الرسم البياني تحرير المسافة ، المسافة الطيفية ، المسافة بين توزيعات الدرجة.
- مجموعات البيانات: الرسم البياني أطلس المسافة
- التعليقات: يعرض هذا المعيار القدرة على المطالبة مباشرة بـ LLMs لهياكل الرسم البياني المعروفة. تتم دراسة المسافات من مخرجات LLMs والرسوم البيانية للحقيقة الأرضية. تصنيف يعتمد على الرسم البياني تحرير مسافة أنواع LLMs في سعة الهلوسة.
HallusionBench: مجموعة تشخيصية متقدمة للهلوسة اللغوية المتشابكة والوهم البصري في نماذج لغة الرؤية الكبيرة
- المقاييس: الدقة.
- مجموعات البيانات: HallusionBench
- التعليقات: يمثل هذا المعيار تحديات كبيرة لنماذج اللغة البصرية الكبيرة المتقدمة (LVLMs) ، مثل GPT-4V (Vision) ، Gemini Pro Vision ، Claude 3 ، و LLAVA-1.5 ، من خلال التأكيد على الفهم الدقيق والتفسير للبيانات البصرية. تقدم هذه الورقة بنية جديدة لهذه الأسئلة البصرية المصممة لإنشاء مجموعات التحكم. هذا الهيكل قادر على إجراء تحليل كمي لميول استجابة النماذج ، والاتساق المنطقي ، وأنماط الفشل المختلفة.
اكتشاف الهلوسة الموحدة لنماذج اللغة الكبيرة متعددة الوسائط
- المقاييس: الدقة ، F1/الدقة/الاستدعاء.
- مجموعات البيانات: Mhalubench
- الإطار: UNIHD
- التعليقات: تقترح هذه الورقة إعداد مشكلة أكثر توحيدًا للكشف عن الهلوسة في MLLMs ، حيث تكشف النقاب عن معايير التقييم التلوي لقياس Mhalubench الذي يشمل مختلف فئات الهلوسة والمهام متعددة الوسائط ، ويقدم UNIHD ، وهو إطار موحد للكشف عن القلالات في المحتوى الناتج عن MLLMs.
FactChd: القياس القياسي لاكتشاف الهلوسة في الحقائق
- المقاييس: F1 من الكشف ، تطابق التفسير
- مجموعات البيانات: FactChd
- أبرز ما: تقدم هذه الورقة معيار FactChd ، الذي يركز على اكتشاف الهلوسة التي تتوافق مع الحقائق. يدمج FactChD المعرفة الواقعية من مجالات متعددة ، تشمل مجموعة واسعة من أنماط الحقائق ، بما في ذلك الحقائق الخام ، والتفكير متعدد القوانين ، والمقارنة ، ومجموعة العمليات. تكمن ميزة التمييز في هدفها في الجمع بين سلاسل الأدلة المتجذرة في المعلومات الواقعية ، مما يتيح التفكير المقنع في التنبؤ بحقائق أو عدم فعالية المطالبة.
يرضي الانتباه: عدسة رضا القيود على الأخطاء الواقعية لنماذج اللغة
- المقاييس: AUROC ، نقاط تشغيل منحنى المخاطر
- مجموعات البيانات: الاستفسارات المقابلة ، التي تم إنشاؤها من ويكيداتا
- التعليقات: هذه الورقة نماذج الاستفسارات الواقعية كمشاكل في الرضا عن القيود وتجد أن الاهتمام برموز القيد يرتبط بشكل كبير مع الصواب/الهلوسة الواقعية.
صحيح: إعادة تقييم تقييم الاتساق الواقعي
- المقاييس: AUROC ، عبر مجموعات بيانات متعددة وطرق التقييم
- مجموعات البيانات: PAWS ، XSUM ، QAGS ، Frank ، Summeval ، Begin ، Q^2 ، DialFact ، Fever ، Vitaminc
Truetacher: تعلم تقييم الاتساق الواقعية مع نماذج اللغة الكبيرة
- المقاييس: AUROC ، عبر مجموعات بيانات متعددة وطرق التقييم
- مجموعات البيانات: XSUM ، Qags ، فرانك ، Summeval
كيس $^3 $ : اكتشاف الهلوسة الموثوق في نماذج لغة الصناديق السوداء عبر الاتساق المتقاطع الدلالي
- المقاييس: دقة و AUROC: تصنيف ضمان الجودة والمجال المفتوح QA
- مجموعات البيانات: البحث الرئيسي والسناتور من هلوسة كرة الثلج ، Hotpotqa و NQ-Open QA
إزالة الوزن المرن لتوليد الحوار المؤمنين والتجزئة
- المقاييس: الإخلاص بين الاستجابة المتوقعة ومعرفة الحقيقة الأرضية (علامة التبويب 1)-الناقد ، Q² ، Bert F1 ، F1.
- مجموعات البيانات: معالج Wikipedia (WOW) ، تمديدات DSTC9 و DSTC11 لـ Multiwoz 2.1 ، Faithdial-مجموعة فرعية من WOW.
الوثوق بأدلةك: هلوسة أقل مع فك تشفير السياق
- المقاييس: الاتساق الواقعية للملخصات: الدقة Bert و Factkb. Memotrap و NQ-SWAP: مطابقة بالضبط.
- مجموعات البيانات: تلخيص: CNN-DM ، XSUM. صراعات المعرفة: Memotrap ، NQ-SWAP.
عندما لا تثق في نماذج اللغة: التحقيق في فعالية الذكريات البارمية وغير البارامترية
- المقاييس: مطابقة دقيقة/دقة.
- مجموعات البيانات: مجموعات بيانات ضمان الجودة مع كيانات ذات ذيل طويلة: popqa ، intityquesions ؛ NQ.
زيادة الاسترجاع يقلل من الهلوسة في المحادثة
- المقاييس: الجيل: الحيرة ، تداخل Unigram (F1) ، Bleu-4 ، Rouge-L. التداخل بين التوليد والمعرفة التي ترتكز عليها الإنسان أثناء جمع مجموعة البيانات: المعرفة F1 ؛ فقط ضع في اعتبارك الكلمات النادرة في مجموعة البيانات عند حساب F1: RARE F1.
- مجموعات البيانات: WOW ، محادثات مستندات CMU (CMU_DOG). مصدر المعرفة: تفريغ ويكيبيديا.
فقط أطلب المعايرة: استراتيجيات لاستنباط درجات الثقة المعايرة من نماذج اللغة التي تم ضبطها مع ردود الفعل البشرية
- المقاييس: خطأ معايرة متوقع (ECE) مع تحجيم درجة الحرارة (ECE-T) ؛ الدقة@التغطية والتغطية@الدقة.
- مجموعات البيانات: أسئلة الإجابة على مجموعات البيانات لتقييم المعرفة الواقعية: TriviaQa ، Sciq ، structfulqa.
كيف يمكن للهلوسة النموذجية اللغوية كرة الثلج
- المقاييس: النسبة المئوية من الإجابات الخاطئة (الهلوسة) والحالات التي "يعرفها النموذج أنه خطأ" (الهلوسة التي تم تسليط عليها كرة الثلج).
- مجموعات البيانات: اختبار البدائية ، بحث السناتور ، اتصال الرسم البياني.
تحسين نماذج اللغة مع تدرجات السياسة غير المتصلة بالميزة
- المقاييس: تقييم الإخلاص لتوليد الاستجابة المعرفة على أساس المعرفة على الإيمان-الإيمان ، الكولا (الطلاقة) ، مشاركة الحوار ، تنوع TF-IDF الطول.
- مجموعات البيانات: مربع حوار معرفي المؤمنين: Faithdial ، مجموعة فرعية أكثر إخلاصًا من WoW.
توليد بثقة: عدم اليقين الكمي لنماذج اللغة الكبيرة الصناديق السوداء
- المقاييس: AUROC ، AUARC ، مقاييس عدم اليقين والثقة (numSet ، DEG ، EIGV).
- مجموعات البيانات: CoQA (مجموعة بيانات QA المحادثة المفتوحة) ، TriviaQa والأسئلة الطبيعية (كتاب QA مغلق).
احتمال التسلسل السياقي: درجات ثقة محسنة لتوليد اللغة الطبيعية
- المقاييس: Auroc ، Auarc ؛ تحسين احتمال التسلسل (احتمال السجل للتسلسل الذي تم إنشاؤه) المستخدمة في حساب الثقة أو عدم اليقين.
- مجموعات البيانات: CoQA (مجموعة بيانات QA المحادثة المفتوحة) ، TriviaQa والأسئلة الطبيعية (كتاب QA مغلق).
Faithdial: معيار مخلص لحوار البحث عن المعلومات
- المقاييس: قياس المقاييس إما درجة هلوسة الاستجابات المولدة لبعض المعرفة المعطاة أو تداخلها مع ردود الذهب المؤمنين: الناقد ، Q² (F1 ، NLI) ، Bertscore ، F1 ، Bleu ، Rouge.
- مجموعات البيانات: Faithdial ، واو.
صياد المسار العصبي: تقليل الهلوسة في أنظمة الحوار عبر قاعة المسار
- المقاييس: Feqa ، مقياس الإخلاص ؛ الناقد ، ناقد الهلوسة ؛ بلو.
- مجموعات البيانات: Opendialkg ، مجموعة بيانات توفر استجابات حوار مفتوحة على مسارات من كيلوغرام.
هالويفال: معيار تقييم الهلوسة على نطاق واسع
- المقاييس: الدقة: ضمان الجودة ، الحوار ، تلخيص.
- مجموعات البيانات: Halueval ، وهي مجموعة من العينات المولدة التي تم إنشاؤها والتي تم إنشاؤها البشرية لتقييم أداء LLMs في التعرف على الهلوسة.
الهلوسة المتداخلة لنماذج اللغة الكبيرة: التقييم والاكتشاف والتخفيف
- المقاييس: بعد توليد أزواج الجملة ، فإنه يقيس الدقة والاستدعاء ودرجة F1 في مهام الكشف.
- مجموعات البيانات: 12 موضوعًا مختارًا من ويكيبيديا.
تخفيف هلوسة نموذج اللغة مع محاذاة المعرفة التفاعلية
- المقاييس: التغطية : مقياس ثنائي يحدد ما إذا كانت جميع قيم الإجابة الذهبية الصحيحة مدرجة في القيمة التي تم إنشاؤها. الهلوسة : مؤشر ثنائي يقيم وجود قيم تم إنشاؤها غير موجودة في قيم الأسئلة وقيم تأريض الذهب. محاكاة المستخدم : محاكاة المستخدم كنموذج لغة "Oracle" مع إمكانية الوصول إلى معلومات الإسناد حول الإجابة الهدف.
- مجموعات البيانات: Fuzzyqa ، مجموعة بيانات تعتمد على Hybriddialogue و Musique حيث تم تبسيط الأسئلة المعقدة باستخدام ChatGPT.
تحقق من حقائقك وحاول مرة أخرى: تحسين نماذج اللغة الكبيرة مع المعرفة الخارجية والتعليقات الآلية
- المقاييس: KF1 ، Bleu ، Rouge ، Chrf ، Meteor ، Bertscore ، Bartscore ، Bleurt ، AVG.
- مجموعات البيانات: الدردشة الإخبارية: تم إعادة استخدام المسار 2 DSTC7 باعتباره مجموعة تقييم لمحادثة الأخبار. خدمة العملاء: يستخدم DSTC11 Track 5 كعرض في سيناريو خدمة العملاء المحادثة ، ويتوسع على مسار DSTC9 1 من خلال دمج المعلومات الذاتية.
SelfCheckGPT: اكتشاف الهلوسة صفر صفر صفر لنماذج اللغة الكبيرة التوليدية
- المقاييس: الكشف عن الهلوسة على مستوى الجملة (AUC-PR) ، والكشف عن الهلوسة على مستوى المرور (معاملات ارتباط بيرسون وسبيرمان).
- مجموعات البيانات: مقالات ويكيبيديا التي تم إنشاؤها من ويكيبيو ، مع الهلوسة المشروحة.
الحالة الداخلية لـ LLM تعرف متى تكذب
- المقاييس: لكل موضوع ومتوسط دقة.
- مجموعات البيانات: تحتوي مجموعة البيانات الحقيقية على بيانات حقيقية وخاطئة تغطي العديد من الموضوعات-المدن والاختراعات والعناصر الكيميائية والحيوانات والشركات والحقائق العلمية.
سلسلة المعرفة: إطار لتأسيس نماذج اللغة الكبيرة ذات قواعد المعرفة المنظمة
- المقاييس: مطابقة بالضبط.
- مجموعات البيانات: الحمى ، Hotpotqa العدوى.
هالو: تقدير وتقليل الهلوسة في نماذج لغة كبيرة مفتوحة المصدر
- المقاييس: درجات Halocheck و SelfCheckgpt ؛ الاتساق ، الواقعية.
- مجموعات البيانات: أسئلة تم إنشاؤها ومراجعتها في مجال الدوري الاميركي للمحترفين.
يوفر غرزة في الوقت تسعة: اكتشاف وهلوسة التخفيف من LLMs عن طريق التحقق من صحة توليد الثقة المنخفضة
- المقاييس: الدقة والاستدعاء عند اكتشاف الهلوسة على مستوى الجملة والمفهوم.
- مجموعات البيانات: فقرات تم إنشاؤها بواسطة Chatgpt تمتد إلى 150 موضوعًا من المجالات المتنوعة.
مصادر الهلوسة من قبل نماذج اللغة الكبيرة على مهام الاستدلال
- المقاييس: دقة ضريبة الاتجاه/هولت واستدعاء مع إدخال الكيان والبدائل.
- مجموعات البيانات: مجموعة بيانات الضريبة/HOLT ، التي تحتوي على أزواج الفرضية مع المهمة المنسقة على النحو الوارد [فرضية P] ، هل صحيح أن [الفرضية H]؟ ، حيث يتم تقييم النموذج مع أماكن عشوائية.
الهلوسة في نماذج الترجمة الكبيرة متعددة اللغات
- المقاييس: معدل ينتج عنه نظام MT الهلوسة تحت الاضطراب (جزء زوج اللغة ، معدل).
- مجموعات البيانات: Flores-101 ، WMT ، Tico.
الاقتباس: مفتاح لبناء نماذج لغة كبيرة مسؤولة ومساءلة
- المقاييس: n/a
- مجموعات البيانات: n/a
الوقاية من الهلوسة في الموارد الصفر لنماذج اللغة الكبيرة
- المقاييس: تصنيف التعليمات الهلوسة: AUC ، ACC ، F1 ، PEA.
- مجموعات البيانات: المفهوم-7 ، والذي يركز على تصنيف التعليمات الهلوسة المحتملة.
RARR: البحث ومراجعة ما تقوله نماذج اللغة ، باستخدام نماذج اللغة
- المقاييس: يعزى إلى درجات المصادر المحددة (AIS) قبل التحرير وبعدها.
- مجموعات البيانات: البيانات التي تم إنشاؤها عن طريق إنشاء مدخلات مهمة من ثلاث مجموعات بيانات وضغط على نماذج مختلفة لإنتاج مخرجات طويلة الشكل قد تحتوي على هلوسة-بيانات واقعية وسلاسل التفكير والحوارات المكثفة للمعرفة.
س²: تقييم الاتساق الواقعي في الحوارات التي تدور حول المعرفة من خلال توليد الأسئلة والإجابة على الأسئلة
- المقاييس: Q² هي مقياس بحد ذاته ، ويتم مقارنته بتداخل على مستوى الرمز المميز F1 ، الدقة والاستدعاء ، Q² w/o NLI ، E2E NLI ، تداخل ، Bertscore ، و Bleu.
- مجموعات البيانات: WOW التي تحتوي على حوارات يحتاج فيها الروبوت إلى الاستجابة لمدخلات المستخدم بطريقة على دراية ؛ موضعية ، مجموعة بيانات محادثة معرفية للإنسان. Dialogue NLI ، وهي مجموعة بيانات تستند إلى مهمة حوار Persona-Chat التي تتكون من أزواج الفرضية.
هل نعرف ما لا نعرفه؟ دراسة أسئلة لا يمكن الإجابة عليها وراء فرقة 2.0
- المقاييس: م على الجميع ، "إجابة" ، و "idk"
- مجموعات البيانات: Mnli ، Squad 2.0 ، Ace-Whqa.
سلسلة التكسير تقلل من الهلوسة في نماذج اللغة الكبيرة
- المقاييس: قائمة Wikidata و Wiki-Category: دقة الاختبار ، متوسط عدد الكيانات الإيجابية والسلبية (الهلوسة) للأسئلة القائمة على القائمة ؛ multispanqa: F1 ، الدقة ، استدعاء ؛ جيل طويل من السير الذاتية: factscore.
- مجموعات البيانات: Wikidata ، قائمة فئة ويكي ، Multispanqa ، توليد طويل من السير الذاتية.
الكشف عن الهلوسة وتخفيفها في تلخيص متعدد اللغات
- المقاييس: MFACT ، مقياس جديد متعدد اللغات المؤمنين تم تطويره من أربعة مقاييس الإخلاص الإنجليزية: DAE ، Qafacteval ، ENFS ٪ ، و Entfa.
- مجموعات البيانات: XL-Sum ، مجموعة بيانات ملخص متعددة اللغات.
هلوسة ولكن واقعية! فحص واقعية الهلوسة في تلخيص جذاب
- المقاييس: Xent: الهلوسة (الدقة ، F1) ، الواقعية (الدقة ، F1) ، Rouge ، ٪ من N-Gram الجديد ، الإخلاص (٪ ENFS ، FEQA ، DAE) ، ENTFA (٪ واقعية الأنفاد.
- مجموعات البيانات: مجموعة بيانات جديدة ، Xent ، لتحليل هلوس الكيانات والواقعية في تلخيص جذاب ، تتكون من 800 ملخص تم إنشاؤه بواسطة BART و annotated. منة ، مجموعة من واقعية وشروحات الهلوسة لـ XSUM.
- التعليقات: علامة التبويب. 2 يوضح عدة أنواع من الهلوسة (على سبيل المثال ، واقعية ، غير فعلية ، جوهرية).
تمكين نماذج لغة كبيرة من إنشاء نص مع الاستشهادات
- المقاييس: الطلاقة (MAUVE) ، الصواب (استدعاء em لـ ASQA ، استدعاء-5 ل Qampari ، استدعاء eli5) ، جودة الاقتباس (استدعاء الاقتباس ، دقة الاقتباس).
- مجموعات البيانات: مجموعات بيانات QA مثل 1) تحتوي على أسئلة واقعية تكون فيها المراجع مهمة ، 2) تتطلب الأسئلة إجابات نصية طويلة تغطي جوانب متعددة ، و 3) الإجابة على الأسئلة تتطلب توليف مصادر متعددة: ASQA ، Qampari ، ELI5.
معيار الكشف عن الهلوسة على مستوى الرمز المميز لتوليد النص الحرة
- المقاييس: ACC ، G-Mean ، BSS ، AUC ، وليس الهلوسة (P ، R ، F1) ، الهلوسة (P ، R ، F1).
- مجموعات البيانات: HADES (مجموعة بيانات الكشف عن هلوسة الهلوسة) ، مجموعة بيانات جديدة لاكتشاف الهلوسة المربوطة على مستوى الرمز المميز الذي تم الحصول عليه من خلال مضايقة عدد كبير من مقاطع النص المستخرجة من ويكيبيديا الإنجليزية والتحقق من التعليقات التوضيحية للمصادر الحشد.
- التعليقات: يوضح الشكل 3 العديد من أنواع الهلوسة (المعرفة الخاصة بالمجال ، والمعرفة المنطقية ، أو عدم الاتساق أو التجميع غير الصحيح ، غير ذي صلة بالموضوع المركزي ، والتعارض مع السياق السابق ، والتعارض مع السياق التالي ، ..)
توليد معايير لتقييم النماذج اللغوية
- المقاييس: النسبة المئوية للأمثلة التي تعينها أعلى احتمال لإنجاز الواقعية.
- مجموعات البيانات: Wiki-Factor و News-Factor: معايير تقييم واقعية جديدة لـ LLMS ، استنادًا إلى ويكيبيديا والمقالات الإخبارية. يتكون كل مثال من بادئة ، وإكمال واقعية وثلاثة بدائل مماثلة ولكن غير معقولة.
- التعليقات: تقدم الورقة إطار عمل لإنشاء مجموعات البيانات هذه تلقائيًا من مجموعة معينة ، مفصلة في القسم 3.
هل تعرف نماذج اللغة عندما تكون مراجع هلوسة؟
- المقاييس: معدل الهلوسة (H ٪ ، من بين 1000 عنوان تم إنشاؤه)
- مجموعات البيانات: تم إنشاؤها (صحيحة ومهلوسة) حول موضوعات من نظام تصنيف الحوسبة ACM.
لماذا تقصر Chatgpt في تقديم إجابات صادقة؟
- المقاييس: #correct و #wrong الإجابات ، ونوع مختلف من الفشل التهم: الفهم ، الواقعية ، الخصوصية ، الاستدلال.
- مجموعات البيانات: Hotpotqa ، Boolq
- التعليقات: يحتوي هذا على تصنيف لطيف على أنواع الأخطاء المختلفة - على سبيل المثال ، الفهم ، الواقعية ، والتحديد ، والاستدلال .
LM VS LM: اكتشاف الأخطاء الواقعية عن طريق الفحص المتقاطع
- المقاييس: الدقة ، استدعاء ، F1 (تحت استراتيجيات استجواب مختلفة: AYS ، IDK ، قائم على الثقة ، IC-IDK)
- مجموعات البيانات: TriviaQa ، NQ ، Popqa
Rho (ρ): تقليل الهلوسة في حوارات المجال المفتوح مع تأريض المعرفة
- المقاييس: Bleu ، Rouge-L ؛ FEQA ، Questeval ، EntityCoverage (الدقة ، استدعاء ، F1) لتقدير درجة الهلوسة-FRQA و Questeval هي مقاييس قائمة على ضمان الجودة لتقييم إخلاص الإنتاج في مهمة التوليد.
- مجموعات البيانات: opendialkg
FactScore: التقييم الذري ذو الحبيبات الدقيقة للدقة الواقعية في توليد النص الطويل
- المقاييس: ٪ بيانات مدعومة عبر مستويات تردد مختلفة من الكيانات الإنسانية.
- مجموعات البيانات: السير الذاتية التي تم إنشاؤها من LLMs ، حيث يكسرها المتواصل البشريون إلى حقائق داعمة.
الخبراء: أسئلة مُنسقة من الخبراء والإجابات المنسوبة
- المقاييس: صفر طلقة (P ، R ، F1) وضبطها (P ، R ، F1) من ملصقات Autoais ؛ حقائق F1 درجات على ملصقات الحقائق المرجعية ؛ Autoais (يعزى إلى مصادر محددة) الدرجات.
- مجموعات البيانات: أسئلة بتنسيق الخبراء عبر مجالات متعددة (على سبيل المثال ، الأنثروبولوجيا ، الهندسة المعمارية ، علم الأحياء ، الكيمياء ، الهندسة والتكنولوجيا ، الرعاية الصحية/الطب ؛ انظر علامة التبويب. 1 لنموذج) تم تنظيمها من نوع السؤال (على سبيل المثال ، سؤال موجه مع الإجابة المفردة ، أو تابية مفتوحة.
دولا: فك تشفير الطبقات المتناقضة يحسن الواقعية في نماذج اللغة الكبيرة
- مقاييس: Truthffulqa: MC1 ، MC2 ، MC3 ؛ العامل: الأخبار ، ويكي ؛ وكانت هذه نتائج الاختيار متعددة. الجيل المفتوح: بالنسبة إلى reultfulqa ، يستخدمون ٪ الحقيقة ، ٪ معلومات ، ٪ الحقيقة*معلومات ، ٪ رفض ؛ لمهام COT (strategyqa و gsm8k) يذهبون بدقة.
- مجموعات البيانات: صدق ، عامل (أخبار/ويكي) ، استراتيجية ، GSM8K
Freshllms: نماذج لغة كبيرة منعشة مع زيادة محرك البحث
- المقاييس: الدقة (صارمة ، مريحة على الأسئلة السريعة ، والأسئلة البطيئة ، والأسئلة المتغيرة أبدًا ، والأسئلة الخاطئة تتضمن المعرفة قبل عام 2022 ومنذ أسئلة عام 2022 ، و 1-قفزة ومتعددة القفزة ، وعموماً).
- مجموعات البيانات: FreshQa ، وهو معيار جديد لـ QA مع 600 سؤال يغطي مجموعة واسعة من أنواع الأسئلة والأجوبة.
ما وراء الواقعية: تقييم شامل لنماذج اللغة الكبيرة كمولدات للمعرفة
- المقاييس: الواقعية والأهمية والتماسك والمعلوماتية والمساعدة والصلاحية.
- مجموعات البيانات: أسئلة طبيعية ، معالج ويكيبيديا.
التحقق المعقد المطالبة مع الأدلة التي تم استردادها في البرية
- المقاييس: الدقة ، MAE ، MACRO-F1 ، دقة ناعمة.
- مجموعات البيانات: تم تصنيف PlayComp ، الذي يحتوي على 1200 مطالبة معقدة من PolitiFactl ، بأحد ملصقات Veracity الست ، وفرة تبرير كتبها المتوقعون من الحقائق ، والتقديرات الفرعية التي تم توضيحها بواسطة العمل السابق.
FELM: تقييم الواقعية لتقييم النماذج اللغوية الكبيرة
- المقاييس: الدقة ، F1/الدقة/الاستدعاء.
- مجموعات البيانات: التفكير ، الرياضيات ، الكتابة/REC ، العلوم/التكنولوجيا ، المعرفة العالمية: GSM8K ، ChatGPT ، Math ، rasterfulqa ، Quora ، MMLU/HC3.
تقييم الهلوسة في نماذج اللغة الصينية الكبيرة
- المقاييس: تقييمات Humand و GPT-4.
- مجموعات البيانات: Halluqa (التي يقترحونها) ، وذكروا struduleqa ، الصينيفاكتفيفال ، هالويفال.
على الإخلاص والواقعية في تلخيص جذاب
- المقاييس: روج ، بيرتسكور ؛ التقييم البشري (تحديد الفترات الهلوسة ، وما إذا كانت جوهرية أو خارجية) - الهلوسة الجوهرية هي التلاعب بالمعلومات في وثيقة المدخلات ، في حين أن الهلوسة الخارجية هي معلومات لا يمكن استنتاجها مباشرة من وثيقة الإدخال. طُلب من البشر شرح الهلوسة الجوهرية والخارجية.
- مجموعات البيانات: XSUM.
Questeval: تلخيص يسأل عن التقييم القائم على الحقائق
- المقاييس: Questeval (المقترح في هذا العمل) ، لاختبار الاتساق والتماسك والطلاقة والأهمية . روج ، أزرق ، نيزك ، بيرتسكور. summaqa ، Qags.
- مجموعات البيانات: Summeval ، Qags-Xsum ، Squad-V2.
Qafacteval: تحسين تقييم الاتساق الواقعية القائم على ضمان الجودة للتلخيص
- المقاييس: Qafacteval (المقترح في هذا العمل) ، وقياس اختيار الإجابة ، وتوليد الأسئلة ، والإجابة على الأسئلة ، والتداخل ، والتصفية/الإجابة.
- مجموعات البيانات: Summac ، مجموعة من المعايير لتقييم الاتساق الواقعية الثنائية ؛ CGS ، جمل صحيحة وغير صحيحة من CNN/Dailymail ؛ XSF ؛ polytope FactCC ؛ Summeval صريح؛ Qags.
الكشف السريع السريع ودقيق الواقعي على المستندات الطويلة
- المقاييس: مقياس (مقياس جديد مقترح في هذا العمل). بالمقارنة مع Q² ، Anli ، Summac ، F1 ، Bleurt ، Questeval ، Bartscore ، Bertscore (الجدول 3).
- مجموعات البيانات: المعيار الحقيقي والشاشة ، مجموعة بيانات جديدة مقترحة في هذا العمل لتقييم عدم الاتساق الواقعية في حوارات النماذج الطويلة (52 وثيقة من Summscreen).
فهم الواقعية في تلخيص الجاذبية مع فرانك: معيار لمقاييس الواقعية
- المقاييس: Bertscore ، FEQA ، QGFS ، DAE ، FactCC
- مجموعات البيانات: مقترح مجموعة بيانات جديدة فرانك: أخطاء واقعية مشروحة الإنسان لمجموعة بيانات CNN/DM و XSUM
صحيح: إعادة تقييم تقييم الاتساق الواقعي
- المقاييس: Q² ، Anli ، Summac ، Bleurt ، Questeval ، FactCC ، Bartscore ، Bertscore
- مجموعات البيانات: توحيد 11 مجموعة بيانات مشروحة بشرية مختلفة لاتساق fctual.
حالة غريبة من الإجابة الهلوسة (الأمم المتحدة): إيجاد حقائق في الحالات الخفية لنماذج اللغة الكبيرة المفرطة
- المقاييس: (تصنيف) F-1 ، مطابقة بالضبط ، (رمز) F-1
- مجموعات البيانات: فرقة ، أسئلة طبيعية ، موسيكي
- التعليقات: تستكشف هذه النماذج الورقية معالجة LLMS للأسئلة (UN) المسببة في إعداد كتاب مغلق ، وهي الإجابة على سؤال استنادًا إلى مقطع معين ، حيث لا يحتوي المقطع على الإجابة. تُظهر الورقة أنه على الرغم من ميل LLMS إلى الإجابات السياقية الهلوسة ، بدلاً من الإشارة إلى أنه لا يمكنهم الإجابة على السؤال ، فإنهم يمتلكون فهمًا داخليًا للإجابة على السؤال (UN).
هل يعرف Androids أنهم يحلمون فقط بالأغنام الكهربائية؟
- المقاييس: (الكشف عن الهلوسة) على مستوى الاستجابة F1 ، مطابقة الائتمان الجزئي على مستوى السبان F1
- مجموعات البيانات: تم إنشاؤها عضويًا وتحريرها CNN Dailymail و Convfever و E2E ، المسمى SPANS
- التعليقات: تعرف نماذج اللغة متى تكون هلوسة ، ويمكننا تدريب تحقيقات على حالات LLM المخفية أثناء فك تشفير الكشف عنها بشكل موثوق.
تصحيح مع التراجع يقلل من الهلوسة في تلخيص
- المقاييس: محاذاة ، factcc ، bs-fact ، rouge-l
- مجموعات البيانات: CNN/DM ، XSUM ، غرفة الأخبار
الكشف عن الهلوسة الحبيبات والتحرير لنماذج اللغة
- المقاييس: الدقة ، استدعاء ، F1.
- مجموعات البيانات: مجموعة بيانات/تحرير الهلوسة المخصصة للهلوسة المخصصة لأنواع مختلفة من الهلوسة (الواقعية): الكيان ، العلاقة ، المتناقضة ، اخترعت ، ذاتية ، لا يمكن التحقق منها.
LLMs كأسباب واقعية: رؤى من المعايير الحالية وما وراءها
- المقاييس: دقة أنواع الأخطاء المختلفة - أمثلة إيجابية ، مبادلة التاريخ ، مبادلة الكيان ، الجمل المنقولة ، مبادلة الأرقام ، مبادلة الضمير.
- مجموعات البيانات: يقترحون SUMMEDITS ، وهو معيار للكشف عن عدم الاتساق 10 مجالات.
تقييم الاتساق الواقعية لتلخيص النص الجذاب
- المقاييس: يقترحون FACTCC ، وهو مقياس يقيس الاتساق الواقعي لتلخيص النص الجذاب (الحدس: ملخص ثابت في الواقع إذا كان يحتوي على نفس الحقائق مثل المستند المصدر)
- مجموعات البيانات: CNN/DM لإنشاء بيانات التدريب ؛ mnli والحمى لنماذج التدريب. تجارب على أساس الإنسان للتقييم على المطالبات حول مقالات CNN/DM.
Summac: إعادة زيارة النماذج المستندة إلى NLI للكشف عن عدم الاتساق في تلخيص
- المقاييس: كل مجموعة بيانات تأتي مع مقاييسها (على سبيل المثال ، تستخدم Cogensumm تدبيرًا قائمًا على إعادة التجديد ؛ Xsumfaith ، Summeval ، وفرانك يقترح العديد من المقاييس ويحلل كيفية ارتباطهم بالتعليقات التعليقات البشرية ؛ إلخ)-للاستدعاء ، يقترح المؤلفون استخدام دقة متوازنة.
- مجموعات البيانات: تقترح ملخص (اتساق موجز) ، وهو مؤشر يتكون من ست مجموعات بيانات كبيرة للكشف عن عدم الاتساق: Cogensumm ، Xsumfaith ، polytope ، FactCC ، Sumpeval ، و Frank.
حول أصل الهلوسة في نماذج المحادثة: هل هي مجموعات البيانات أم النماذج؟
- المقاييس: التعليقات التوضيحية الخبراء وغير الخبراء: الهلوسة الجزئية ، والاسترداد ، والهلوسة ، وعدم وجود ، عام (كل فئة من هذه الفئات لديها فئات فرعية أكثر حبيبات-انظر على سبيل المثال ، الشكل 2)-يتبع التعليقات التوضيحية ضريبة البداية و VRM.
- مجموعات البيانات: معايير المحادثة المعرفية: معالج ويكيبيديا (WOW) ، CMU-DOG ، و SOFTICALCHAT-مجموعات البيانات التي تتكون من حوارات بين متحدثين حيث الهدف هو توصيل معلومات حول مواضيع معينة بينما يتم تقديم المتحدثين مع مقتطفات المعرفة ذات الصلة بالمنعطف الحالي.
تعليم نماذج اللغة للهلوسة أقل مع المهام الاصطناعية
- المقاييس: معدل الهلوسة في العديد من الإعدادات (الأصلي ، مع رسالة نظام محسّنة ، مع أوزان LLM كاملة ، مع البيانات الاصطناعية ، أو مع مخاليط من البيانات الاصطناعية والمرجعية) ؛ Bleu ، Rouge-1 ، Rouge-2 ، Rouge-L.
- مجموعات البيانات: البحث والترجع (MS MARCO) ، تلخيص الاجتماع (QMSUM) ، توليد التقارير السريرية الآلية (ACI-BENCY).
استراتيجيات فك تشفير الإخلاص لتلخيص الجذور
- المقاييس: Rouge-L ، Bertscore ، BS-Fact ، FactCC ، DAE ، Questeval
- مجموعات البيانات: CNN/DM ، XSUM
Divengenged Divergence أوجه أخذ عينات من درجة الحرارة
- المقاييس: محادثة ضمان الجودة: نماذج تم ضبطها على MNLI و SNLI و FEVER و PAWS و SCTAIL و VITAMINC. تلخيص: نماذج تم ضبطها على ANLI و XNLI.
- مجموعات البيانات: إعادة كتابة الأسئلة في سياق المحادثة (QRECC) ، XLSUM.
التحقيق في الهلوسة في نماذج اللغة الكبيرة المتقدمة لتلخيص جذاب
- المقاييس: مقاييس مخاطر الهلوسة (Harim+) ، Summac ، Summaczs ، Summacconv ، نسبة مخاطر الهلوسة (HRR)
- مجموعات البيانات: FactCC ، polytope ، Summeval ، العقود القانونية ، RCT
تتعارض المعرفة القائمة على الكيان في الإجابة على
- المقاييس: م ، نسبة الاحتفاظ.
- مجموعات البيانات: NQ Dev مع إجابة تداخل (AO) ولا يوجد إجابة تداخل (NAO) ، NewsQA.
Truthx: تخفيف الهلوسة عن طريق تحرير نماذج اللغة الكبيرة في الفضاء الصادق
- المقاييس: درجات MC1/MC2/MC3 لمهمة TruthFfulqa من متعدد الخيارات ؛ ٪ الحقيقة ، ٪ معلومات ، ٪ الحقيقة*معلومات عن TruthFfulqa مهمة الجيل المفتوح ؛ دقة الاختيار للأسئلة الطبيعية ، Triviaqa و Factor (الأخبار ، الخبير ، ويكي).
- مجموعات البيانات: صدق ، أسئلة طبيعية ، Triviaqa ، عامل (أخبار ، خبير ، ويكي)
يحسن تحلل السؤال من إخلاص التفكير الناتج عن النموذج
- المقاييس: الدقة ، حساسية اقتطاع الإجابة النهائية ، حساسية الفساد الإجابة النهائية ، تغيير دقة السياق المتحيزة.
- مجموعات البيانات: Hotpotqa ، OpenBookQa ، StrategyQA ، realderfulqa.
الهلوسة المتداخلة لنماذج اللغة الكبيرة: التقييم والاكتشاف والتخفيف
- المقاييس: للكشف: الدقة ، استدعاء ، F1. للتخفيف: تمت إزالة نسبة الانتقام الذاتي ، وزيادة نسبة الحقائق المفيدة ، وزيادة الحيرة.
- مجموعات البيانات: مجموعة بيانات توليد النصوص المفتوحة للمجال المفتوح ، أوصاف نصية موسوعة تم إنشاؤها بواسطة LLM لكيانات ويكيبيديا ، popqa.
اكتشاف الهلوسة في نماذج اللغة الكبيرة باستخدام الانتروبيا الدلالية
- المقاييس: للكشف: أوروك ، أوراك.
- مجموعات البيانات: QA: Triviaqa ، Squad ، Bioasq ، NQ-Open ، Svamp. FactualBio ، مجموعة بيانات لتجميل السيرة الذاتية ، ترافق هذه الورقة.
الممثلون: اختبار تشابه المحاذاة عبر الوسائط لنماذج لغة الرؤية
- المقاييس: اقترح فريق Cast ، وهو مقياس بسيط للرسالة الذاتية يسعى إلى تقييم ما إذا كانت النماذج متعددة الوسائط متسقة عبر الطرائق. يعمل هذا في مرحلتين ، في المرحلة الأولى ، تولد النماذج أوجه تشابه/بيانات حقيقية تقارن مدينتين ، وفي المرحلة الثانية ، يحكم النموذج إخراجها من أجل الصدق. لذلك يجب أن يقيم النموذج المتسق دائمًا مخرجاته الخاصة.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback نطاق.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.