Недавнее исследование, в котором тестировались ведущие модели большого языка (LLM) в рамках Монреальской когнитивной оценки (MoCA), показало, что эти модели ИИ во время теста демонстрировали такие же когнитивные нарушения, как и пациенты с ранней стадией деменции. Это исследование, опубликованное в рождественском специальном выпуске Британского медицинского журнала, вызвало переосмысление перспектив применения ИИ в медицинской сфере, особенно в задачах, требующих зрительно-пространственных способностей и исполнительных функций, где были выявлены ограничения ИИ. Результаты исследования бросают вызов мнению о том, что ИИ вот-вот заменит врачей-людей, и поднимают новые темы для дальнейшего развития ИИ в клинических приложениях.
Новое исследование показывает, что лучшие модели искусственного интеллекта показали когнитивные нарушения, аналогичные симптомам ранней стадии деменции, при тестировании с помощью Монреальской когнитивной оценки (MoCA). Этот вывод подчеркивает ограничения искусственного интеллекта в клинических приложениях, особенно в задачах, требующих визуальных и исполнительных навыков.
Исследование, опубликованное в специальном рождественском выпуске журнала BMJ, показало, что почти все ведущие крупномасштабные языковые модели, или «чат-боты», показали лучшие результаты при использовании оценочного теста, обычно используемого для выявления ранних стадий слабоумия.

Исследование также показало, что старые версии этих чат-ботов, как и стареющие пациенты, показали худшие результаты в тестах. Исследователи считают, что эти результаты «бросают вызов предположению о том, что искусственный интеллект скоро заменит врачей-людей».
Недавние достижения в области искусственного интеллекта вызвали волнение и беспокойство по поводу того, превзойдут ли чат-боты врачей-людей в медицинских задачах.
Хотя предыдущие исследования показали, что большие языковые модели (LLM) хорошо справляются с различными медицинскими диагностическими задачами, до сих пор остается неизученным вопрос о том, подвержены ли они когнитивным нарушениям, подобным человеческим, таким как снижение когнитивных функций.
Чтобы восполнить этот пробел в знаниях, исследователи использовали тест Монреальской когнитивной оценки (MoCA) для оценки когнитивных способностей ведущих студентов LLM, которые в настоящее время общедоступны, включая ChatGPT4 и 4o, разработанные OpenAI, Claude3.5 «Sonnet», разработанные Anthropic, и Gemini1 и 1.5, разработанная Alphabet.
Тест MoCA широко используется для выявления признаков когнитивных нарушений и ранней деменции, часто у пожилых людей. С помощью серии коротких заданий и вопросов он оценивает различные способности, включая внимание, память, языковые навыки, зрительно-пространственные навыки и исполнительные функции. Максимальная оценка составляет 30 баллов, а 26 и выше обычно считаются нормальными.
Исследователи дали участникам программы LLM инструкции, идентичные тем, которые давались пациентам-людям. Оценка проводилась согласно официальным рекомендациям и оценивалась практикующим неврологом.
В тесте MoCA ChatGPT4o набрал наивысший балл (26 из 30 баллов), за ним следуют ChatGPT4 и Claude (25 из 30 баллов), а Gemini1.0 набрал самый низкий балл (16 из 30 баллов).
Все чат-боты плохо развивали визуально-пространственные навыки и выполняли такие задачи, как тест соединения (соединение обведенных цифр и букв в порядке возрастания) и тест рисования часов (рисование циферблата, показывающего определенное время). Модель Близнецов не справилась с задачей отложенного вспоминания (запоминание последовательности из пяти слов).
Все чат-боты хорошо справились с большинством других задач, включая именование, внимание, язык и абстракцию.
Однако в ходе дальнейшего визуально-пространственного тестирования чат-бот не смог продемонстрировать эмпатию или точно интерпретировать сложные визуальные сцены. Только ChatGPT4o преуспел на этапе несоответствия теста Струпа, который использует комбинацию названий цветов и цветов шрифта для измерения того, как помехи влияют на время реакции.
Это результаты наблюдений, и исследователи признают, что существуют фундаментальные различия между человеческим мозгом и крупномасштабными языковыми моделями.
Однако они отметили, что все крупномасштабные языковые модели постоянно не справлялись с задачами, требующими визуальной абстракции и исполнительных функций, подчеркивая важный недостаток, который может препятствовать их использованию в клинических условиях.
Поэтому они заключают: «Мало того, что неврологи вряд ли будут заменены большими языковыми моделями в краткосрочной перспективе, но наши результаты показывают, что они могут вскоре обнаружить, что им придется лечить новых виртуальных пациентов — новые когнитивные модели препятствий искусственного интеллекта».
В целом, это исследование забило тревогу по поводу применения искусственного интеллекта в медицинской сфере, напомнив нам не быть слепо оптимистами, а иметь четкое понимание ограничений ИИ и продолжать изучать безопасные и надежные методы его применения. В будущем важным направлением развития искусственного интеллекта станет компенсация недостатков когнитивных способностей ИИ.