Недавно Vectara опубликовала отчет под названием «Список галлюцинаций», сравнивая производительность галлюцинаций, производимых различными крупными языковыми моделями (LLMS) при суммировании коротких документов. В этом рейтинге используется модель оценки галлюцинации Hughes в Vectara (HHEM-2.1), которая регулярно обновляется для оценки того, как часто эти модели вводят ложную информацию в резюме. Согласно последним данным, в отчете указываются ключевые показатели, такие как уровень галлюцинации, фактическая скорость согласованности, скорость отклика и средняя суммарная продолжительность серии популярных моделей.

В последних рейтингах серия Google Gemini2.0 показала хорошо, особенно Gemini-2,0-Flash-001, что возглавляло список с низким уровнем галлюцинации 0,7%, показывая, что он представил мало ложной информации при обработке документов. Кроме того, модели Gemini-2,0-P-EXP и Openai O3-Mini-Riseding, следовали за темой галлюцинации 0,8%и хорошо выполнялись.
Отчет также показывает, что, хотя показатели галлюцинации во многих моделях увеличились, большинство остается на низком уровне, а фактические показатели согласованности для нескольких моделей выше 95%, что указывает на то, что они относительно сильны в обеспечении того, чтобы информация была истинной. Особенно примечательно, что показатели отклика моделей, как правило, высоки, причем подавляющее большинство моделей приближаются к 100%, что означает, что они хорошо работают в понимании и ответе на вопросы.
Кроме того, в списке ранжирования также упоминается средняя суммарная длина различных моделей, что указывает на различия в возможностях модели с точки зрения концентрации информации. В целом, этот рейтинг не только предоставляет важные справочные данные для исследователей и разработчиков, но и предоставляет обычным пользователям удобство понимать производительность текущих крупных языковых моделей.
Конкретный рейтинг вход: https://github.com/vectara/hallucination-leaderboard
Ключевые моменты:
Последние рейтинги иллюзий оценивают производительность различных крупных языковых моделей в резюме документов.
Модели серии Gemini от Google работали хорошо, с показателями галлюцинации всего 0,7%.
Уровень отклика модели близок к 100%, демонстрируя ее эффективность в обработке информации.