Набор данных естественного языка и новый эталон для продвинутой математики
Мы исследуем математические возможности двух итераций CHATGPT (выпущенные 9 января-2023 и 30 января 2010 года) и GPT-4, тестируя их на общедоступных наборах данных, а также в ручной обработке, используя новую методологию. В отличие от формальной математики, где доступны крупные базы данных формальных доказательств (например, Lean Mathematic Library), текущие наборы данных математики естественного языка, используемые для сравнительных языковых моделей, либо охватывают только элементарную математику, либо очень малы. Мы обращаемся к этому, публично выпустив два новых набора данных: призраки и Minighost. Это первые наборы данных о естественном языке, курируемые работающими исследователями по математике, которые (1) стремятся охватить математику на уровне выпускников, (2) предоставить целостный обзор математических способностей языковых моделей и (3) различать множество измерений математических рассуждений. Эти наборы данных также проверяют, могут ли CHATGPT и GPT-4 быть полезными помощниками для профессиональных математиков, подражая вариантам использования, которые возникают в повседневной профессиональной деятельности математиков. Мы сравниваем модели по ряду мелкозернистых показателей производительности. Для продвинутой математики это самая подробная оценка на сегодняшний день. Мы находим, что CHATGPT может быть наиболее успешно использовать в качестве математического помощника для запроса фактов, выступая в качестве математической поисковой системы и интерфейса базы знаний. GPT-4 можно дополнительно использоваться для математики на уровне бакалавриата, но терпит неудачу на сложности уровня выпускника. Вопреки многим положительным отчетам в средствах массовой информации о способностях GPT-4 и Catgpt для вычисления экзаменов (потенциальный случай смещения отбора), их общая математическая эффективность значительно ниже уровня аспиранта. Следовательно, если ваша цель состоит в том, чтобы использовать CHATGPT для сдачи математического экзамена на уровне выпускников, вам было бы лучше копировать со среднего уровня!
Мы ссылаемся на статью для получения подробной информации о лицензии (TL; DR все, что мы создали самим, разделены в соответствии с CC BY-NC 4.0; для всех подсказок из книг, защищенных авторским правом, применяются соответствующие лицензии)
Если вы используете наш набор данных, пожалуйста, укажите нашу статью:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}