GHOSTS
1.0.0
自然语言数据集和高级数学的新基准
我们使用一种新方法,使用一种新方法,研究了两种Chatgpt(发布9月9日至2023年1月9日和30日至2023年)和GPT-4的数学功能,并使用一种新方法在公开可用的数据集以及手工制作的方法上测试它们。与形式数学相反,有形式证明的大量数据库(例如,精益数学库),自然语言数学的当前数据集,用于基准语言模型,要么仅涵盖基本数学,要么很小。我们通过公开发布两个新数据集来解决此问题:鬼魂和Minighosts。这些是数学研究人员策划的第一个自然语言数据集(1)旨在涵盖研究生级数学,(2)提供了语言模型数学能力的整体概述,(3)区分数学推理的多个维度。这些数据集还测试了ChatGpt和GPT-4是否可以通过模拟数学家每日专业活动中出现的用例来对专业数学家有用。我们将模型基于一系列细粒度的性能指标进行基准测试。对于高级数学,这是迄今为止最详细的评估工作。我们发现,ChatGpt最成功地用作查询事实的数学助手,充当数学搜索引擎和知识基础界面。 GPT-4还可以用于本科数学,但由于研究生级别的难度而失败。与媒体上有关GPT-4和Chatgpt的解决考试能力(一种潜在的选择偏见的情况)的许多积极报告相反,他们的总体数学表现远低于研究生的水平。因此,如果您的目标是使用Chatgpt通过研究生级的数学考试,那么您最好从普通同伴中复制!
我们参考文件以获取有关许可证的详细信息(TL; DR我们自己创建的所有内容均在CC BY-NC 4.0下共享;对于受版权保护的书籍的所有提示,适用各自的许可证)
如果您使用我们的数据集,请引用我们的论文:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}