Apple AI Research: простой арифметический тест «Киви» победил более 20 современных моделей, таких как o1 и Llama

Автор：Eve Cole Время обновления：2025-02-02 18:48:01

IT House News от 2 ноября газета Los Angeles Times опубликовала вчера (1 ноября) сообщение в блоге, в котором сообщается, что исследовательская группа Apple протестировала 20 самых передовых моделей искусственного интеллекта и обнаружила, что при наличии помех они обрабатывают производительность на простых задачи по арифметике плохие, даже хуже, чем у младших школьников.

Apple использовала следующий простой арифметический вопрос для тестирования более 20 самых передовых моделей искусственного интеллекта. IT Home прикрепил вопрос следующим образом:

В пятницу Оливер собрал 44 киви, а в субботу — 58. В воскресенье их было вдвое больше, чем в пятницу, но 5 из них были меньше среднего. Сколько киви собрал Оливер за эти три дня? ты выбрал?

Правильный ответ — 190 , а формула расчета — 44 (пятница) + 58 (суббота) + 88 (44*2, воскресенье).

Однако более 20 протестированных современных моделей ИИ не смогли устранить помехи и вообще не поняли, что размер и количество киви тут ни при чем. Большинство результатов составило 185.

Команда Apple обнаружила, что когда вопросы содержали информацию, которая казалась важной, но на самом деле не имела значения, производительность моделей ИИ резко падала. В этом исследовании предполагается, что модели ИИ в основном полагаются на языковые шаблоны в обучающих данных, а не на истинное понимание математических концепций.

Исследование Apple показывает, что нынешние модели искусственного интеллекта «неспособны к истинному логическому рассуждению». Это открытие является напоминанием о том, что, хотя ИИ превосходно справляется с некоторыми задачами, его интеллект не так надежен, как кажется.

Команда Apple отметила, что простое расширение данных или вычислительной мощности не может фундаментально решить эту проблему. Целью статьи Apple является не ослабление энтузиазма в отношении возможностей ИИ, а обеспечение рационального понимания.