Потрясающее обнаружение
Ссылаясь на это хранилище
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
Документы и резюме
Поведение выбора знаний в LLM с помощью инженерии репрезентации на основе SAE
- Метрики: точное совпадение
- Наборы данных: NQSWAP, MacNoise
- Комментарии: Первая работа, которая использует разреженные автообороды (SAE), для улучшения как использования контекстуальных, так и параметрических знаний.
MARS: Отвечая на оценку с учетом значений для оценки неопределенности в генеративных LLMS
- Метрики: Auroc
- Наборы данных: Viriviaqa, Naturalqa, Webqa
- Комментарии: Техника оценки неопределенности LLM под названием MARS заменяет нормализованную длину вероятность оценки, присваивая большие веса для токенов, которые вносят более значительный вклад в правильность.
Не проектируйте, учитесь: обучаемая функция оценки для оценки неопределенности в генеративных LLMS
- Метрики: Auroc, Prr
- Наборы данных: Viviaqa, GSM8K, NaturalQA, WebQA
- Комментарии: Техника оценки неопределенности LLM называется LARS Trains трансформатор, основанный на кодере, который принимает вероятности запроса, генерации и токена в качестве входных данных и возвращает оценку неопределенности в качестве вывода
Количественная оценка неопределенности в ответах из любой языковой модели и повышение их достоверности
- Метрики: точность, точность/отзыв/auroc
- Наборы данных: Viviaqa, GSM8K, Svamp, QA здравого смысла
- Комментарии: Техника оценки неопределенности LLM под названием BSDetector, который сочетает в себе достоверность саморефлексии и наблюдала последовательность в единую оценку доверия. Обнаружает неправильные/галлюцинированные ответы LLM с высокой точностью/отзывами, а также могут автоматически повысить точность ответов LLM.
Decore: декодирование, противопоставляя извлечения головы, чтобы смягчить галлюцинации
- Метрики: MC1, MC2, MC3 Баллы для задачи с множественным выбором правды; %Истина, %Информация, %Истина*Информация для задачи открытого поколения правды; Точное совпадение Subspan для задач с открытым доменом QA (NQ-Open, NQ-SWAP, Viriviaqa, Popqa, Musique); Точность для мемотрапа; Точность на уровне быстрого уровня и уровня инструкций для Ifeval.
- Наборы данных: rightfulqa, nq-open, nq-swap, triviaqa, popqa, memotrap, ifeval, musique
Использование галлюцинаций для снижения зависимости вручную при быстрой сегментации
- Метрики: MAE, F_ {Beta}, S_ {Alpha}
- Наборы данных: Chameleon, Camo, Cod10k, CVC-Colondb, Kvasir, Isic
- Комментарии: Первое исследование рассматривает не галлюцинации чисто негативными, а как общий аспект модели предварительного обучения. В отличие от предыдущих подходов, которые непосредственно устраняют галлюцинации, PRAMAC First стимулирует галлюцинации, чтобы добывать предыдущие знания из модели предварительного обучения, чтобы собрать информацию, относящуюся к задаче, на изображениях. Затем это устраняет нерелевантные галлюцинации, чтобы смягчить их негативное воздействие. Эффективность этого метода была продемонстрирована в нескольких сложных задачах сегментации.
Grapheval: структура оценки галлюцинации LLM на основе знаний.
- Метрики: точность (обнаружение), Rouge (коррекция)
- Наборы данных: Summeval, QAGS-C, QAGS-X
- Комментарии: предлагает графную и коррекционную структуру для обнаружения галлюцинации. Обнаружение галлюцинации осуществляется путем извлечения тройков KG из вывода LLM и сравнения въезда тройков с точки зрения предоставленного контекста. Коррекция осуществляется путем принятия тройки, которые могут содержать галлюцинации (влечение ниже 0,5), затем побуждает LLM генерировать новый, фактически правильный тройной тройной по отношению к предоставленному контексту. Впоследствии в отдельном проходе вывода предлагается LLM заменить информацию в нефакционном выводе LLM на основе скорректированной тройки. Основными моделями NLI, которые используются для экспериментов, являются HHEM (DEBERTAV3), True и TrueTeacher (T5-XXL). Используемый LLM является Claude2. Окончательные эксперименты проводятся путем вычисления баллов Rouge между эталонным текстом и предлагаемым методом смягчения.
Линкс: модель оценки галлюцинации с открытым исходным кодом
- Метрики: точность
- Наборы данных: Halubench (состоит из ~ 500 случайных образцов из Covidqa, Pubmedqa, Drop, FinanceBench и другого набора возмущений, основанных на полученных образцах)
- Комментарии: предлагает ресурс Halubench и Lynx (модель на основе Llama3-70bn-instruct) для оценки метрической оценки. Основное внимание уделяется инструментальной оценке галлюцинации, что означает ответы, верные данному контексту, а не мировым знаниям. Галлюцинированные примеры для Halubench собраны с GPT-4O. Обучение Lynx проводится на 2400 образцах из Ragtruth, Drop, Covidqa, Pubmedqa с GPT4O, генерируемыми рассуждениями в рамках тренировочных образцов. Оценка проводится путем извлечения бинарной метки на уровне ответа, указывающей на верность ответа в контексте.
LLMS также галлюцинируйте графики: структурная перспектива
- Метрики: расстояние редактирования графика, спектральное расстояние, расстояние между распределением степеней.
- Наборы данных: расстояние графического атласа
- Комментарии: Этот эталон представляет возможность напрямую предпринимать LLMS для известных структур графиков. Расстояния от выходов LLM и графиков наземных прав истины изучены. Рейтинг, основанный на графических расстояниях, сортирует LLMS в их амплитуде галлюцинации.
HallusionBench: передовая диагностическая набор для запутанной языковой галлюцинации и визуальной иллюзии в моделях крупных зрителей на уровне зрения
- Метрики: точность.
- Наборы данных: HallusionBench
- Комментарии: Этот эталон представляет значительные проблемы для продвинутых больших моделей визуального языка (LVLMS), таких как GPT-4V (Vision), Gemini Pro Vision, Claude 3 и Llava-1.5, путем подчеркивания тонкого понимания и интерпретации визуальных данных. Эта статья представляет собой новую структуру для этих визуальных вопросов, предназначенных для создания контрольных групп. Эта структура способна провести количественный анализ тенденций отклика моделей, логической согласованности и различных режимов отказа.
Объединенное обнаружение галлюцинации для мультимодальных крупных языковых моделей
- Метрики: точность, F1/точность/отзыв.
- Наборы данных: Mhalubench
- Структура: Unihd
- Комментарии: В этом документе предлагается более единая задача для обнаружения галлюцинации в MLLMS, представляет собой ориентированную мета-оценку Mhalubench, который охватывает различные категории галлюцинации и мультимодальные задачи, и вводит UNIHD, единую структуру для обнаружения гауллецинаций в содержании, производимых MLLMS.
FACTCHD: сравнительный анализ обнаружения галлюцинации по фактам
- Метрики: F1 обнаружения, совпадение объяснения
- Наборы данных: FATCHD
- Основные моменты: В этом документе представлены эталон FAITCHD, который фокусируется на обнаружении галлюцинаций фактов. FactChd объединяет фактические знания из нескольких доменов, охватывая широкий спектр моделей фактов, включая необработанные факты, рассуждения, сравнение и установленные операции. Его отличительная особенность заключается в своей целью сочетать цепочки доказательств, укоренившиеся в фактической информации, что позволяет убедительно рассуждать в прогнозировании фактической или нефактуальности претензии.
Внимание удовлетворяет: линза с удовлетворением ограничений на фактические ошибки языковых моделей
- Метрики: AUROC, Кривая риска, эксплуатационные точки
- Наборы данных: Counterfact, фактические запросы, полученные из Wikidata
- Комментарии: В этом документе моделируют фактические вопросы как проблемы с удовлетворением ограничений и обнаруживают, что внимание к токенам ограничения в значительной степени коррелирует с фактической правильностью/галлюцинациями.
Верно: переоценка оценки фактической согласованности
- Метрики: Auroc, в нескольких наборах данных и методах оценки
- Наборы данных: лапы, xsum, Qags, Frank, Summeval, Begin, Q^2, Dialfact, Fever, Vitaminc
TrueTeacher: изучение фактической оценки согласованности с большими языковыми моделями
- Метрики: Auroc, в нескольких наборах данных и методах оценки
- Наборы данных: xsum, Qags, Frank, Summeval
Мешок $^3 $ : Надежное обнаружение галлюцинации в языковых моделях черного ящика посредством семантической консистенции перекрестной проверки
- Метрики: Точность и Auroc: Классификация QA и QA с открытым доменом
- Наборы данных: Prime Number and Senator Search из галлюцинации снежного кома, HotPotqa и NQ-Open QA
Удаление упругого веса для поколения верного и абстрактного диалога
- Метрики: верность между прогнозируемым ответом и знаниями по прав и правде за собой (в таблице 1)-Критик, Q², Bert F1, F1.
- Наборы данных: Wizard-of-Wikipedia (WOW), расширения DSTC9 и DSTC11 Multiwoz 2.1, Faithdial-деорузированная подмножество WOW.
Доверяя ваши доказательства: меньше галлюцинации с помощью декодирования контекста
- Метрики: Фактическая последовательность резюме: Bert-Presigion и Factkb. Memotrap и NQ-Swap: точное совпадение.
- Наборы данных: Суммизация: CNN-DM, XSUM. Конфликты знаний: Memotrap, NQ-Swap.
Когда не доверять языковым моделям: изучение эффективности параметрических и непараметрических воспоминаний
- Метрики: точное совпадение/точность.
- Наборы данных: наборы данных QA с длинными хвостами: Popqa, EntityQuestions; Н.К.
Увеличение поиска уменьшает галлюцинацию в разговоре
- Метрики: поколение: недоумение, Unigram перекрытие (F1), Bleu-4, Rouge-L. Перекрытие между поколением и знаниями, на которых человек обосновался во время сбора наборов данных: знание F1; Рассмотрите только слова, которые редки в наборе данных при расчете F1: Rare F1.
- Наборы данных: вау, документ CMU заземленные разговоры (CMU_DOG). Источник знаний: килт Википедия свалки.
Просто попросите калибровку: стратегии получения калиброванных показателей доверия из языковых моделей, настраиваемых с обратной связью с человека
- Метрики: ожидаемая ошибка калибровки (ECE) с масштабированием температуры (ECE-T); Точность@покрытие и покрытие@Точность.
- Наборы данных: наборы данных с ответом на вопросы Оценки фактических знаний: витриака, SCIQ, правдифка.
Как языковая модель галлюцинации могут снежко
- Метрики: процент неправильных ответов (галлюцинации) и случаи, когда «модель знает, что это неправильно» (галлюцинации снежного кома).
- Наборы данных: тестирование первичности, поиск сенатора, подключение к графику.
Улучшение языковых моделей с офлайн-градиентами политики на основе преимуществ
- Метрики: Оценка верности для получения знаний поколения ответа на Faithdial-Faithcritic, Cola (беглость), участие в диалоговом окне, разнообразие TF-IDF.
- Наборы данных: верный диалог, обоснованный знание: Faithdial, более верная подмножество вау.
Создание с уверенностью: количественная оценка неопределенности для моделей с большими языками черного ящика
- Метрики: Auroc, AUARC, Неопределенность и показатели доверия (Numset, DEG, EIGV).
- Наборы данных: COQA (разговорная набор данных QA с открытой книгой), Triviaqa и естественные вопросы (QA с закрытой книгой).
Контекстуализированная вероятность последовательности: повышенные оценки доверия для генерации естественного языка
- Метрики: Auroc, Auarc; Улучшенная вероятность последовательности (вероятность сгенерированной последовательности в журнале) используется в вычислении доверия или неопределенности.
- Наборы данных: COQA (разговорная набор данных QA с открытой книгой), Triviaqa и естественные вопросы (QA с закрытой книгой).
Faithdial: верный эталон для диалога поиска информации
- Метрики: метрики измеряют либо степень галлюцинации генерируемых ответов, которые приведены к некоторым данным знаниям, либо их совпадение с верными золотыми реакциями: критик, Q² (F1, NLI), Bertscore, F1, Bleu, Rouge.
- Наборы данных: Faithdial, вау.
Охотник на нервные пути: уменьшение галлюцинации в системах диалога через заземление пути
- Метрики: Feqa, метрика верности; Критик, критик галлюцинации; Блю.
- Наборы данных: Opendialkg, набор данных, который предоставляет открытые диалогические ответы, основанные на пути из кг.
Halueval: крупномасштабный эталон оценки галлюцинации
- Метрики: Точность: QA, диалог, суммирование.
- Наборы данных: Halueval, коллекция генерируемых и аннулированных человеческих галлюцинированных образцов для оценки производительности LLM в распознавании галлюцинаций.
Самообладающие галлюцинации крупных языковых моделей: оценка, обнаружение и смягчение
- Метрики: после создания пар предложений, он измеряет точность, отзыв и оценку F1 в задачах обнаружения.
- Наборы данных: 12 выбранных тем из Википедии.
Смягчение языковой модели галлюцинация с интерактивным выравниванием вопросов
- Метрики: охват : двоичная метрика, которая определяет, включены ли все правильные значения ответа на золото в сгенерированное значение. Галлюцинация : двоичный индикатор, который оценивает наличие сгенерированных значений, которые не существуют в значениях вопросов и значениях заземления золота. Пользовательский симулятор : пользовательский симулятор как языковая модель «Oracle» с доступом к информации о атрибуции о целевом ответе.
- Наборы данных: Fuzzyqa, набор данных, основанный на Hybriddialogue и Musique, где сложные вопросы были упрощены с использованием CHATGPT.
Проверьте свои факты и попробуйте еще раз: улучшение больших языковых моделей с помощью внешних знаний и автоматической обратной связи
- Метрики: KF1, Bleu, Rouge, CHRF, Meteor, Bertscore, Bartscore, Bleurt, Avg Length.
- Наборы данных: News Chat: DSTC7 Track 2 был перепрофилен как корпус оценки для разговора о новостях. Обслуживание клиентов: использует DSTC11 Track 5 в качестве витрины в разговорном сценарии обслуживания клиентов, расширяясь на DSTC9 Track 1, включив субъективную информацию.
SelfCheckgpt: Обнаружение галлюцинации черного ящика с нулевым ресурсом для генеративных моделей крупных языков
- Метрики: обнаружение галлюцинации на уровне предложения (AUC-PR) и обнаружение галлюцинации на уровне прохода (коэффициенты корреляции Пирсона и Спирмена).
- Наборы данных: сгенерированные статьи в Википедии из Викибио с аннотированными галлюцинациями.
Внутреннее состояние LLM знает, когда он лжет
- Метрики: за темы и средняя точность.
- Наборы данных: набор данных True-False содержит истинные и ложные утверждения, охватывающие несколько тем-города, изобретения, химические элементы, животные, компании и научные факты.
Цепочка знаний: основа для обоснования больших языковых моделей со структурированными базами знаний
- Метрики: точное совпадение.
- Наборы данных: лихорадка, состязательный хотпотка.
Halo: оценка и сокращение галлюцинаций в слабых моделях с открытым исходным кодом.
- Метрики: оценки Halocheck и SelfCheckgpt; Последовательность, фактическая.
- Наборы данных: сгенерированные и рецензируемые вопросы в домене НБА.
Шит во времени экономит девять: обнаружение и смягчение галлюцинаций LLM за счет проверки генерации с низкой достоверностью
- Метрики: точность и отзыв при обнаружении галлюцинаций на уровне предложений и концепции.
- Наборы данных: сгенерированные CHATGPT параграфы, охватывающие 150 тем из различных доменов.
Источники галлюцинации с помощью крупных языковых моделей по задачам вывода
- Метрики: направленная точность набора/Holt и отзыв с вставками и замены сущностей.
- Наборы данных: набор данных LEVY/HOLT, содержащий пары предпосылки-гипотезы с задачей, отформатированной в соответствии с данной [Premise P], правда ли, что [гипотеза H]? , где модель оценивается с помощью случайных помещений.
Галлюцинации в больших многоязычных моделях перевода
- Метрики: скорость, до которой система MT производит галлюцинации под возмущением (фракция языковой пары, скорость).
- Наборы данных: FLORES-101, WMT, TICO.
Цитация: ключ к созданию ответственных и подотчетных моделей крупных языков
- Метрики: n/a
- Наборы данных: N/A.
Профилактика галлюцинации с нулевым ресурсом для крупных языковых моделей
- Метрики: галлюцинаторная классификация инструкций: AUC, ACC, F1, PEA.
- Наборы данных: Concept-7, который фокусируется на классификации потенциальных галлюцинаторных инструкций.
Рарр: Исследование и пересмотр того, что говорят языковые модели, используя языковые модели
- Метрики: связанные с выявленными источниками (AIS) оценками до и после редактирования.
- Наборы данных: сгенерированные операторы путем создания входов задач из трех наборов данных и побуждения различных моделей для производства длинных выходов, которые могут содержать галлюцинации-фактоидные операторы, цепочки рассуждений и диалоги с интенсивными знаниями.
Q²: Оценка фактической последовательности в диалогах, посвященных знаниям, посредством генерации вопросов и ответа вопросов
- Метрики: Q² является самой метрикой, и она сравнивается с перекрытием уровня токена F1, точностью и отзывами, Q² без NLI, E2E NLI, перекрытием, Bertscore и Bleu.
- Наборы данных: вау, которые содержат диалоги, в которых бот должен отвечать на пользовательские вводы знающим образом; Актуальная чат, набор данных разговора, обоснованный человеком-человеком; Диалог NLI, набор данных, основанный на задаче диалога Persona-Chat, состоящей из пар предпосылки-гипотезы.
Знаем ли мы, чего не знаем? Изучение безрассудных вопросов за пределами команды 2.0
- Метрики: EM на всех, "есть ответ" и "Idk"
- Наборы данных: MNLI, Squad 2.0, Ace-WHQA.
Цепь проверки уменьшает галлюцинацию в моделях крупных языков
- Метрики: Wikidata и Wiki-Category Список: точность теста, среднее количество положительных и отрицательных (галлюцинационных) объектов для вопросов на основе списков; Multispanqa: F1, точность, отзыв; Длинное поколение биографий: FactScore.
- Наборы данных: Wikidata, список вики-категорий, Multispanqa, длинное генерация биографий.
Обнаружение и смягчение галлюцинаций в многоязычном суммировании
- Метрики: Mfact, новый многоязычный верный метрика, разработанная из четырех английских показателей верности: DAE, Qafacteval, Enfs%и Entfa.
- Наборы данных: XL-SUM, многоязычный набор данных.
Галлюцинированные, но фактические! Проверка фактических действий галлюцинаций в абстрактной суммировании
- Метрики: Xent: галлюцинация (точность, F1), Фактическая (точность, F1), Rouge, % New N-Gram, верность ( % Enfs, Feqa, DAE), Entfa ( % фактической эн., % Фактического Hal.)
- Наборы данных: новый набор данных, Xent, для анализа галлюцинации и фактических действий сущности в абстрактном суммировании, состоящем из 800 резюме, генерируемых BART и аннотированными. Мент, набор фактических и галлюцинационных аннотаций для XSUM.
- Комментарии: Tab. 2 описывает несколько типов галлюцинаций (например, фактический, нефактуальный, внутренний).
Включение крупных языковых моделей генерировать текст с помощью цитат
- Метрики: беглость (лиловая), правильность (EM Recall для ASQA, Remeply-5 для QAMPARI, Recave Recall для ELI5), качество цитирования (отзыв цитирования, точность цитирования).
- Наборы данных: наборы данных QA, так что 1) они содержат фактические вопросы, в которых важны ссылки, 2) вопросы требуют давних текстов, охватывающих несколько аспектов, и 3) ответа на вопросы требует синтезирования нескольких источников: ASQA, Qampari, ELI5.
Бесплатный эталон обнаружения галлюцинации на уровне.
- Метрики: ACC, G-MEAN, BSS, AUC, не галлюцинация (P, R, F1), галлюцинация (P, R, F1).
- Наборы данных: ADE (набор данных по обнаружению галлюцинации), новый набор данных по обнаружению галлюцинации на уровне токена, полученный путем нарушения большого количества текстовых сегментов, извлеченных из английской Википедии, и подтвержденные с помощью аннотаций с толп.
- Комментарии: На рис. 3 изложены несколько типов галлюцинации (специфичные для области знания, знания здравого смысла, бессвязь или ненадлежащая коллокация, не связанные с центральной темой, конфликт с предыдущим контекстом, конфликт с последующим контекстом, ..)
Генерирование контрольных показателей для оценки фактической оценки языковых моделей
- Метрики: процент примеров. Он присваивает наибольшую вероятность фактическому завершению.
- Наборы данных: вики-фактор и новостной фактор: два новых критерия оценки фактических факторов для LLMS, основанные на Википедии и новостных статьях. Каждый пример состоит из префикса, фактического завершения и трех аналогичных, но нефактурных альтернатив.
- Комментарии: В документе вводится структура для автоматического генерации таких наборов данных из данного корпуса, подробно описанной в разделе 3.
Знают ли языковые модели, когда они галлюцинируют ссылки?
- Метрики: частота галлюцинации (H%, из 1000 генерируемых названий)
- Наборы данных: сгенерированные (истинные и галлюцинированные) ссылки по темам из системы классификации вычислений ACM.
Почему CHATGPT не справляется с предоставлением правдивых ответов?
- Метрики: #correct и #wrong Ответы, а также различные типы сбоев: понимание, фактическая, специфичность, вывод.
- Наборы данных: hotpotqa, boolq
- Комментарии: это имеет хорошую таксономию на разных типах ошибок - например, понимание , фактическая способность , спецификация , вывод .
LM против LM: обнаружение фактических ошибок с помощью перекрестного экзамена
- Метрики: точность, отзыв, F1 (при разных стратегиях перекрестного допроса: Ays, IDK, основанный на доверии, IC-IDK)
- Наборы данных: Viviaqa, NQ, Popqa
Rho (ρ): уменьшение галлюцинации в диалогах с открытым доменом с заземлением знаний
- Метрики: Bleu, Rouge-L; Feqa, Questeval, EntityCoverage (точность, отзыв, F1), чтобы оценить степень галлюцинации-FRQA и Questeval являются метриками на основе QA для оценки верности вывода в задаче генерации.
- Наборы данных: Opendialkg
FactScore: мелкозернистая атомная оценка фактической точности в генерации текста длинной формы
- Метрики: %поддерживаемых заявлений на различных частотных уровнях человеческих сущностей.
- Наборы данных: люди биографии, полученные из LLMS, где человеческие аннотаторы разбивают их на поддержку фактов.
ExpertQA: вопросы, образованные экспертами и приписанные ответы
- Метрики: нулевой выстрел (P, R, F1) и тонко настроенные (P, R, F1) из Autoais Labels; FactScore F1 Баллы по ссылкам на этикетке фактических факторов; Autoais (приписывается идентифицированным источникам).
- Наборы данных: вопросы, образованные экспертами в разных областях (например, антропология, архитектура, биология, химия, инженерия и технологии, здравоохранение/медицина; см. В табле. 1 для образца), организованного по типу вопросов (например, направленный вопрос с единственным однозначным ответом, открытый потенциально неоднозначный вопрос, суммирование информации о теме или предположении о том, как подходить к проблеме.
Дола: Декодирование контрастными слоями улучшает фактическую жизнь в моделях крупных языков
- Метрики: Правдафулька: MC1, MC2, MC3 результаты; Фактор: Новости, Вики; Это были результаты с множественным выбором. Открытое поколение: для правды, они используют %правды, %info*info*info, %отклонение; Для задач кроватки (стратегия QA и GSM8K) они выполняют точность.
- Наборы данных: Trildufulqa, Factor (News/Wiki), StrategyQA, GSM8K
Freshllms: освежающие большие языковые модели с увеличением поисковой системы
- Метрики: Точность (строгие, расслабленные на быстро меняющихся вопросах, медленные вопросы, никогда не изменяющие вопросы, вопросы ложных предпринимателей, связанные с знаниями до 2022 года и с 2022 года, 1-хоп и вопросов с несколькими ходами, и в целом).
- Наборы данных: FreshQA, новый эталон QA с 600 вопросами, охватывающими широкий спектр типов вопросов и ответов.
Помимо факта: комплексная оценка крупных языковых моделей в качестве генераторов знаний
- Метрики: фактическая, актуальность, согласованность, информативность, полезность и достоверность.
- Наборы данных: естественные вопросы, мастер Википедии.
Сложная проверка претензий с помощью доказательств, полученных в дикой природе
- Метрики: точность, MAE, Macro-F1, мягкая точность.
- Наборы данных: претензий, который содержит 1200 сложных претензий от Politifactl, каждое заявление помечено одной из шести ярлыков Veratice, абзаком оправдания, написанного ожидаемыми проверками фактов, и под подводы аннотируются предыдущей работой.
FELM: Оценка фактических значений моделей крупных языков
- Метрики: точность, F1/точность/отзыв.
- Наборы данных: рассуждения, математика, написание/Rec, наука/технологии, мировые знания: GSM8K, CHATGPT, Math, Trildfulqa, Quora, MMLU/HC3.
Оценка галлюцинаций в моделях крупных языков в китайском языке
- Метрики: оценки Humand и GPT-4.
- Наборы данных: Halluqa (который они предлагают), и упоминают правдуфы, китайскийфактов, галюваль.
О верности и фактической основе в абстрактной суммировании
- Метрики: Rouge, Bertscore; Оценка человека (идентифицируйте галлюцинаторные пролеты и является ли она внутренней или внешней) - внутренние галлюцинации являются манипуляциями с информацией в входном документе, в то время как внешние галлюцинации - это информация, не выводящая непосредственно из входного документа. Люди попросили аннотировать внутренние и внешние галлюцинации.
- Наборы данных: xsum.
Questeval: суммирование просит оценки на основе фактов
- Метрики: Questeval (предлагается в этой работе), для тестирования на согласованность , когерентность , беглость и актуальность . Rouge, Blue, Meteor, Bertscore. Summaqa, Qags.
- Наборы данных: Summeval, QAGS-XSUM, Squad-V2.
Qafacteval: улучшенная оценка фактической согласованности на основе QA для суммирования
- Метрики: Qafacteval (предлагается в этой работе), измерение выбора ответов, генерация вопросов, ответный ответ, перекрытие ответов и фильтрация/отвечаемость.
- Наборы данных: Summac, набор критериев для бинарной оценки фактической согласованности; CGS, правильные и неправильные предложения от CNN/Dailymail; Xsf; Политоп; Factcc; Summeval; ОТКРОВЕННЫЙ; Кагс.
Быстрое и точное обнаружение фактического несоответствия в течение длинных документов
- Метрики: масштаб (новая метрика, предложенная в этой работе). По сравнению с Q², Anli, Summac, F1, Bleurt, Questeval, Bartscore, Bertscore (Таблица 3).
- Наборы данных: True Bendal и Screeneval, новый набор данных, предложенный в этой работе для оценки фактического несоответствия в длинных диалогах (52 документа из Summscreen).
Понимание фактического отношения в абстрактном суммировании с Фрэнком: эталон для показателей фактической
- Метрики: Bertscore, Feqa, QGFS, DAE, FACTCC
- Наборы данных: предложил новый набор данных Frank: человеческие аннотированные фактические ошибки для набора данных CNN/DM и XSUM
Верно: переоценка оценки фактической согласованности
- Метрики: Q², Anli, Summac, Bleurt, Questeval, Factcc, Bartscore, Bertscore
- Наборы данных: Консолидация 11 различных аннотированных человеческих наборов данных для FCTual Conscestency.
Любопытный случай галлюцинаторной (ООН) ответственности: поиск истин в скрытых состояниях чрезмерных моделей крупных языков.
- Метрики: (классификация) F-1, точное совпадение, (токен) F-1
- Наборы данных: команда, натуральные вопросы, musique
- Комментарии: В этой бумажной модели исследуются обращение LLMS (ООН) ответственных вопросов в сфере закрытой книги, а именно ответа на вопрос, основанный на данном отрывке, где отрывок не имеет ответа. В документе показывается, что, несмотря на тенденцию LLMS к галлюцинированию контекстуальных ответов, а не утверждают, что они не могут ответить на вопрос, они обладают внутренним пониманием ответственности вопроса (ООН).
Знают ли андроиды, они только мечтают об электрических овец?
- Метрики: (обнаружение галлюцинации) Уровень ответа F1, частичный кредитный матч на уровне SPAN F1
- Наборы данных: органически сгенерированные и синтетически отредактированные CNN Dailymail, Convfever и E2E, помеченные для галлюцинаций для галлюцинаций
- Комментарии: Языковые модели знают, когда они галлюцинируют, и мы можем обучать зонды на LLM скрытых состояниях во время декодирования, чтобы надежно обнаруживать их.
Коррекция с обратной обработкой уменьшает галлюцинацию при суммировании
- Метрики: Alignscore, FactCC, BS-Fact, Rouge-L
- Наборы данных: CNN/DM, XSUM, Newsroom
Мелкозернистое обнаружение галлюцинации и редактирование для языковых моделей
- Метрики: точность, отзыв, F1.
- Наборы данных: пользовательский тонкозернистый набор данных по обнаружению/редактирования галлюцинации для различных типов (фактических) галлюцинаций: сущность, отношение, противоречивые, изобретенные, субъективные, не поддающиеся проверке.
LLMS как фактические рассуждения: понимание существующих критериев и за ее пределами
- Метрики: Точность для различных типов ошибок - Положительные примеры, подмен даты, подмен сущностей, отрицательные предложения, обменоказование, обмен место местоимения.
- Наборы данных: они предлагают Summedits, эталон обнаружения несоответствия на 10 доменов.
Оценка фактической согласованности абстрактного текстового суммирования текста
- Метрики: они предлагают FactCC, метрику, которая измеряет фактическую согласованность абстрактной текстовой суммирования (интуиция: резюме является фактически согласованным, если оно содержит те же факты, что и исходный документ)
- Наборы данных: CNN/DM для создания обучающих данных; MNLI и лихорадка для тренировочных моделей. Эксперименты на основе человека для оценки претензий о статьях CNN/DM.
Summac: повторное посещение моделей на основе NLI для обнаружения несоответствия при суммировании
- Метрики: Каждый набор данных поставляется с его метриками (например, Cogensumm использует меру, основанную на реэранинге; Xsumfaith, Summeval и Фрэнк предлагают несколько метрик и проанализировать, как они коррелируют с человеческими аннотациями; и т. Д.)-для SMAMAC, авторы предлагают использовать сбалансированную точность.
- Наборы данных: они предлагают Summac (Summary Conscistency), эталон, состоящий из шести больших наборов данных об обнаружении несоответствия: Cogensumm, Xsumfaith, Polletope, Factcc, Summeval и Frank.
О происхождении галлюцинаций в разговорных моделях: это наборы данных или модели?
- Метрики: Экспертные и неэкспертные аннотации: частичная галлюцинация, въезд, галлюцинация, обнаружение, общая (каждая из этих категорий имеет более мелкозернистые подклассы-см. Например, рис. 2)-аннотации следуют начало и VRM таксономии.
- Наборы данных: Знание, заземленные разговоры: Wizard of Wikipedia (WOW), CMU-DOG и TacticalChat-наборы данных, состоящие из диалогов между двумя говорящими, где цель состоит в том, чтобы сообщать информацию о конкретных темах, в то время как динамики представлены со франами знаний, соответствующим текущему повороту.
Учебные языковые модели для галлюцинации меньше с помощью синтетических задач
- Метрики: скорость галлюцинации в нескольких настройках (оригинал, с оптимизированным системным сообщением, с полными весами LLM, с синтетическими данными или со смесями синтетических и эталонных данных); Bleu, Rouge-1, Rouge-2, Rouge-L.
- Наборы данных: Поиск и перестройка (MS MARCO), Суммирование собраний (QMSUM), Автоматизированное генерация клинических отчетов (ACI-Bench).
Стратегии декодирования верности для абстрактной суммирования
- Метрики: Rouge-L, Bertscore, BS-Fact, Factcc, Dae, Questeval
- Наборы данных: CNN/DM, XSUM
KL-дивергенция отбег за рамки температуры
- Метрики: разговорная QA: модели, настраиваемые на MNLI, SNLI, лихорадку, лапы, SCTAIL и VITAMINC. Суммизация: модели, настраиваемые на Anli и Xnli.
- Наборы данных: переписывание вопросов в разговорном контексте (QRECC), XLSUM.
Исследование галлюцинаций в обрезке крупных языковых моделей для абстрактной суммирования
- Метрики: показатели риска галлюцинации (Harim+), Summac, Summaczs, Summacconv, коэффициент риска галлюцинации (HRR)
- Наборы данных: FATCCC, Политоп, Summeval, Legal Contracts, RCT
Основанные на основе конфликты знаний в ответ на ответ
- Метрики: EM, коэффициент запоминания.
- Наборы данных: NQ DEV с перекрытием ответа (AO) и без ответа на перекрытие (NAO), Newsqa.
Правда: облегчение галлюцинаций, редактируя крупные языковые модели в правдивом пространстве
- Метрики: оценки MC1/MC2/MC3 для задачи Pruteffulqa с множественным выбором; %Истина, %Информация, %Истина*Информация для Истины. Точность выбора для естественных вопросов, витривиаки и фактора (новости, эксперт, вики).
- Наборы данных: правда, естественные вопросы, витривиака, фактор (новости, эксперт, вики)
Разложение вопросов улучшает верность рассуждений, вызванных моделью,
- Метрики: точность, чувствительность усечения окончательного ответа, чувствительность к окончательному ответу, чувствительность к коррупции, изменение точности смещенного контекста.
- Наборы данных: hotpotqa, openbookqa, стратегия, правдифка.
Самообладающие галлюцинации крупных языковых моделей: оценка, обнаружение и смягчение
- Метрики: для обнаружения: точность, отзыв, F1. Для смягчения: соотношение самоуверенности удалено, соотношение информативных фактов, удержанное, растерянность увеличилась.
- Наборы данных: пользовательский набор данных генерации текста с открытым доменом, LLM-сгенерированные энциклопедические текстовые описания для организаций Wikipedia, Popqa.
Обнаружение галлюцинаций в больших языковых моделях с использованием семантической энтропии
- Метрики: для обнаружения: Auroc, Aurac.
- Наборы данных: QA: Triviaqa, Squad, BioASQ, NQ-Open, Svamp. Фактический биография, набор данных по генерации биографии, сопровождающий эту статью.
CAST: Тест сходства сходства по межмодальному выравниванию для моделей языка зрения
- Метрики: предложить CAST, простой метрику самосогласованности, которая стремится оценить, соответствуют ли мультимодальные модели по методам. Это работает на двух этапах, на первом этапе модели генерируют сходство/истинные операторы, сравнивая два входа, а на втором этапе модель судит свой собственный вывод для правдивости. Поэтому последовательная модель должна всегда оценивать свои собственные выходы как верные.
Domain-specific Entries
Med-HALT: Medical Domain Hallucination Test for Large Language Models
- Metrics: Reasoning Hallucination Tests (False Confidence Tests, None of the Above Tests, Fake Questions Tests), Memory Hallucination Tests (Abstract-to-Link Tests, PMID-to-Title Tests, Title-to-Link Tests, Link-to-Title Tests); Accuracy, Pointwise Score.
- Datasets: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa (Taiwan), Pubmed.
Retrieval-Based Prompt Selection for Code-Related Few-Shot Learning
- Metrics: Accuracy, Accuracy plausible match
- Datasets: ATLAS dataset, TFix dataset
- Comments: : Published at ICSE 2023
Overviews, Surveys, and Shared Tasks
- Mitigating LLM Hallucinations: a multifaceted approach
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- Survey of Hallucination in Natural Language Generation
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Paper available here
- Two main categories: factuality hallucinations and faithfulness hallucinations . Factuality hallucinations emphasise the discrepancy between generated content and verifiable real-world facts, typically manifesting as factual inconsistencies or fabrications. Faithfulness hallucinations refer to the divergence of generated content from user instructions or the context provided by the input, as well as self-consistency within generated content.
- LLM Powered Autonomous Agents
- SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- llm-hallucination-survey
- How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
- The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

Taxonomies
Survey of Hallucination in Natural Language Generation classifies metrics in Statistical (ROUGE, BLEU, PARENT, Knowledge F1, ..) and Model-based metrics. The latter are further structured in the following classes:
- Information-Extraction (IE)-based : retrieve an answer from a knowledge source and compare it with the generated answer -- there might be problems due to the error propagation from the IE model.
- QA-based : measure the overlap/consistency between generation and source reference, based on the intuition that similar answers will be generated from the same question if the generation is factually consistent with the source reference. Used to evaluate hallucinations in summarisation, dialogue, and data2text generation. Composed of a question generation model and a question answering model.
- Natural Language Inference (NLI)-based : based on the idea that only the source knowledge reference should entail the entirety of the information in faithful and hallucination-free generation.
A Survey of Hallucination in “Large” Foundation Models surveys papers flagging them for detection , mitigation , tasks , datasets , and evaluation metrics . Regarding hallucinations in text, it categorises papers by LLMs , Multilingual LLMs , and Domain-specific LLMs .
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models proposed a taxonomy of different types of hallucinations: Entity-error Hallucination, Relation-error Hallucination, Incompleteness Hallucination, Outdatedness Hallucination, Overclaim Hallucination, Unverifiability Hallucination.
Internal Consistency and Self-Feedback in Large Language Models: A Survey proposed a new perspective, Internal Consistency , to approach "enhancing reasoning" and ""alleviating hallucinations". This perspective allowed us to unify many seemingly unrelated works into a single framework. To improve internal consistency (which in turn enhances reasoning ability and mitigates hallucinations), this paper identified common elements across various works and summarized them into a Self-Feedback framework.
This framework consists of three components: Self-Evaluation, Internal Consistency Signal, and Self-Update.
- Self-Evaluation : Responsible for evaluating the model's internal consistency based on its language expressions, decoding layer probability distributions, and hidden states.
- Internal Consistency Signal : Through Self-Evaluation, we can obtain numerical, textual, external, and even comparative signals.
- Self-Update : Using these signals, we can update the model's expressions or even the model itself to improve internal consistency.
Measuring Hallucinations in LLMs
- AnyScale - Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper
- Arthur.ai - Hallucination Experiment
- Vectara - Cut the Bull…. Detecting Hallucinations in Large Language Models
- Vectara LLM Hallucination Leaderboard
- TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
Open Source Models for Measuring Hallucinations
- MiniCheck Code and Model - GitHub
- AlignScore Code and Model - GitHub
- Google True Teacher Model - HuggingFace
- Hallucination Evaluation Model - HuggingFace
- Summac Code and Model - GitHub
- SCALE Code and Model - GitHub
Definitions and Notes
Extrinsic and Intrinsic Hallucinations
Neural Path Hunter defines as extrinsic hallucination as an utterance that brings a new span of text that does not correspond to a valid triple in a KG, and as intrinsic hallucination as an utterance that misuses either the subject or object in a KG triple such that there is no direct path between the two entities. Survey of Hallucination in Natural Language Generation defines as extrinsic hallucination a case where the generated output that cannot be verified from the source content, and as an intrinsic hallucination a case where the generated output contradicts the source content.