Редактор Downcodes узнал, что Apple недавно опубликовала исследование возможностей математических рассуждений моделей большого языка (LLM), которое привлекло широкое внимание в отрасли. В этом исследовании подвергаются сомнению производительность существующего LLM в тесте GSM8K и представлен улучшенный тест GSM-Symbolic для более надежной оценки логических способностей LLM. Это исследование имеет большое значение для понимания ограничений LLM в области математики, а также дает ценную информацию о направлениях будущего улучшения LLM.
Недавно Apple провела исследование логических возможностей моделей большого языка (LLM), вызвав обеспокоенность по поводу эффективности этих моделей в области математики.
Известно, что тест GSM8K широко используется для оценки способности моделей решать математические задачи в начальной школе. Хотя производительность LLM на GSM8K за последние годы улучшилась, исследователи поставили под сомнение надежность этого результата. Поэтому они провели крупномасштабное исследование для изучения производительности современных моделей с открытым и закрытым исходным кодом.
Чтобы лучше оценить способность модели к рассуждению, исследовательская группа представила улучшенный эталонный тест — GSM-Symbolic. В этом новом тесте используются символические шаблоны для создания разнообразных вопросов, что позволяет лучше контролировать процесс оценки и обеспечивает более надежные показатели.

Исследование показало, что производительность LLM значительно колебалась при изменении числовых значений в задаче. Что еще более интересно, производительность модели значительно падает по мере увеличения количества терминов в вопросе. Исследователи предполагают, что это падение производительности указывает на то, что существующие LLM не обладают истинными возможностями логического рассуждения, а просто имитируют этапы рассуждения в обучающих данных.
В экспериментах производительность всех современных моделей падала на целых 65% при добавлении всего одного, казалось бы, релевантного термина. Хотя эти термины не имеют ничего общего с цепочкой рассуждений, ведущей к окончательному ответу, они все же оказывают огромное влияние на производительность модели. В целом, это исследование дает нам более глубокое понимание возможностей и ограничений LLM в математических рассуждениях.
Выделять:
Способность LLM к математическому рассуждению демонстрирует очевидные различия в разных случаях задач.
«По мере увеличения сложности задачи производительность LLM значительно снижается, особенно после добавления дополнительных условий.
Существующие LLM не обладают реальными возможностями логического рассуждения и в основном полагаются на повторение и имитацию обучающих данных.
Это исследование Apple выявляет недостатки больших языковых моделей в математических рассуждениях и указывает важные направления для будущих улучшений моделей. Ожидается, что дальнейшие исследования улучшат способность LLM к логическому рассуждению и приблизит ее к когнитивному уровню человека. Редактор Downcodes продолжит уделять внимание последним разработкам в этой области.