Большие языковые модели (LLM) с очень длинными контекстными окнами быстро развиваются, и их способность обрабатывать информацию привлекла всеобщее внимание. Однако существуют проблемы с оценкой способности этих моделей понимать и использовать большие объемы информации. Для этой цели исследователи из Google DeepMind разработали тест Микеланджело, стремясь более глубоко оценить возможности долгоконтекстного LLM-рассуждения и указать направления для будущих улучшений модели.
В последнее время горячей темой обсуждения стали большие языковые модели (LLM) с очень длинными контекстными окнами. Эти модели способны обрабатывать сотни тысяч или даже миллионы токенов за одно приглашение, открывая множество новых возможностей для разработчиков. Однако насколько хорошо эти LLM с длинным контекстом могут понимать и использовать большой объем полученной информации? Чтобы решить эту проблему, исследователи из Google DeepMind запустили новый тест под названием Michelangelo, предназначенный для оценки возможностей push с длинным контекстом. Результаты показывают, что, хотя современные модели достигли определенного прогресса в извлечении информации из больших объемов контекстных данных, они все еще испытывают трудности с задачами, требующими рассуждений и понимания структуры данных. По мере появления LLM с длинными контекстными окнами исследователи начали понимать, что необходимы новые тесты для оценки возможностей этих моделей. Существующие оценки в основном сосредоточены на задачах поиска информации, таких как оценки «поиска иголок в стогах сена», то есть поиск конкретной информации в большом количестве контекстов. Однако простой поиск не означает понимания моделью общего контекста. Чтобы решить эти проблемы, Микеланджело предложил новый метод оценки, поставив сложные задачи, требующие от моделей выполнения более глубоких рассуждений и синтеза при обработке длинных текстов. Например, среда оценки содержит несколько задач, связанных с программированием и естественным языком. Эти задачи не только проверяют способность модели к памяти, но также фокусируются на глубине ее понимания и обработки информации. В задаче оценки Микеланджело модель должна решить три основные задачи синтеза длинных документов, а именно «потенциальный список», «многораундное разрешение корреференции» и различные другие сценарии применения. Эти задачи не только помогают оценить производительность модели на длинных документах, но и выявить ее недостатки в выводе и синтезе. Первый — это «потенциальный список», где модели необходимо обработать длинный список операций со списком Python, отфильтровывая ненужные или избыточные операторы, чтобы определить окончательное состояние списка. Второй пункт — «многоходовое разрешение ссылок», где модели необходимо понимать структуру разговора и решать эталонные задачи в длинных разговорах. Третий пункт — «Я не знаю». При ответе на несколько вопросов с несколькими вариантами ответов модель должна определить, включен ли ответ в контекст, и иметь возможность точно ответить на вопрос «Я не знаю». Исследователи сравнили Микеланджело с десятью ведущими LLM, включая различные версии Gemini, GPT-4 и Claude, и протестировали модель в контексте до 1 миллиона токенов. Модель Gemini лучше всего работает на MRCR, модель GPT — на скрытом списке, а Claude3.5Sonnet получает наивысший балл на IDK.

Редактор Downcodes заключил: «Появление теста Микеланджело открывает новую перспективу для оценки сверхдлинного контекста LLM, а также указывает на недостатки текущих моделей в возможностях сложных рассуждений». В будущем более мощный LLM должен будет достичь прорыва в возможностях рассуждения, чтобы лучше справляться с более сложными задачами и сценариями применения. Мы с нетерпением ждем будущих исследований, которые принесут нам еще больше сюрпризов!