Хотя большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, являются мощными, у них также есть общий серьезный недостаток: они часто создают галлюцинации, то есть фиктивную информацию. Это не только смущает, но и препятствует более широкому применению LLM. Даже Apple выразила обеспокоенность по поводу того, как ее собственные системы искусственного интеллекта отреагируют на эту проблему. Чтобы решить эту проблему, исследователи разработали новый детектор галлюцинаций ИИ, который может эффективно идентифицировать ложный контент, создаваемый ИИ, закладывая основу для развития технологии ИИ и более безопасных и надежных приложений.

Эти иллюзии приводят ко многим смущающим и интригующим ошибкам и являются одной из главных причин, почему искусственный интеллект, такой как ChatGPT, до сих пор не стал более практичным. Однажды мы видели, как Google пришлось пересмотреть свой обзор поиска по ИИ, потому что ИИ начал говорить людям, что можно безопасно есть камни и что можно безопасно наносить клей на пиццу. Были даже адвокаты, которые использовали ChatGPT для написания судебных документов, но их оштрафовали, потому что чат-бот цитировал документы.
Согласно статье, новый алгоритм, разработанный исследователями, может помочь определить, точны ли ответы, сгенерированные ИИ, примерно в 79 процентах случаев. Конечно, это не идеальный результат, но он на 10% лучше, чем другие современные методы.
Чат-боты, такие как Gemini и ChatGPT, могут быть полезны, но они также могут легко генерировать вымышленные ответы. Исследование провели сотрудники кафедры компьютерных наук Оксфордского университета. В своей статье исследователи объяснили, что использованный ими метод был относительно простым.
Сначала они попросили чат-бота ответить на одно и то же приглашение несколько раз, обычно от пяти до десяти раз. Затем они вычислили значение, которое мы называем семантической энтропией и которое является мерой того, насколько схожи или различны ответы по смыслу. Если модель отвечает на каждый пункт подсказки по-разному, показатель семантической энтропии будет выше, что указывает на то, что ответы может составлять ИИ. Однако если все ответы одинаковы или имеют схожее значение, показатель семантической энтропии будет ниже, что указывает на то, что ответы, которые он дает, более последовательны и, скорее всего, будут правдивыми. Это не 100% точный детектор галлюцинаций ИИ, но это интересный подход.
Другие методы основаны на так называемой наивной энтропии, которая обычно проверяет, отличается ли формулировка ответа, а не его смысл. Следовательно, вероятность обнаружения галлюцинаций менее точна, чем вычисление семантической энтропии, поскольку оно не фокусируется на значении слов в предложении.
Исследователи говорят, что алгоритм можно добавить в чат-боты, такие как ChatGPT, с помощью кнопки, которая будет давать пользователям «оценку уверенности» в ответах на их запросы. Соблазнительно встроить детекторы галлюцинаций ИИ непосредственно в чат-ботов, поэтому вполне понятно добавлять такие инструменты в различные чат-боты.
Хотя этот детектор галлюцинаций ИИ, основанный на семантической энтропии, не идеален, его точность 79% и преимущество 10% над существующими методами дают новые идеи и методы решения проблемы галлюцинаций ИИ. Это исследование, несомненно, будет способствовать развитию технологий искусственного интеллекта и сделает системы искусственного интеллекта более надежными и заслуживающими доверия.