GHOSTS
1.0.0
自然語言數據集和高級數學的新基準
我們使用一種新方法,使用一種新方法,研究了兩種Chatgpt(發布9月9日至2023年1月9日和30日至2023年)和GPT-4的數學功能,並使用一種新方法在公開可用的數據集以及手工製作的方法上測試它們。與形式數學相反,有形式證明的大量數據庫(例如,精益數學庫),自然語言數學的當前數據集,用於基準語言模型,要么僅涵蓋基本數學,要么很小。我們通過公開發布兩個新數據集來解決此問題:鬼魂和Minighosts。這些是數學研究人員策劃的第一個自然語言數據集(1)旨在涵蓋研究生級數學,(2)提供了語言模型數學能力的整體概述,(3)區分數學推理的多個維度。這些數據集還測試了ChatGpt和GPT-4是否可以通過模擬數學家每日專業活動中出現的用例來對專業數學家有用。我們將模型基於一系列細粒度的性能指標進行基準測試。對於高級數學,這是迄今為止最詳細的評估工作。我們發現,ChatGpt最成功地用作查詢事實的數學助手,充當數學搜索引擎和知識基礎界面。 GPT-4還可以用於本科數學,但由於研究生級別的難度而失敗。與媒體上有關GPT-4和Chatgpt的解決考試能力(一種潛在的選擇偏見的情況)的許多積極報告相反,他們的總體數學表現遠低於研究生的水平。因此,如果您的目標是使用Chatgpt通過研究生級的數學考試,那麼您最好從普通同伴中復制!
我們參考文件以獲取有關許可證的詳細信息(TL; DR我們自己創建的所有內容均在CC BY-NC 4.0下共享;對於受版權保護的書籍的所有提示,適用各自的許可證)
如果您使用我們的數據集,請引用我們的論文:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}