自然言語データセットと高度な数学のための新しいベンチマーク
ChatGPTの2つの反復(2023年1月9日と30年1月30日 - 2023年1月30日)とGPT-4の数学的能力を調査し、新しい方法論を使用して、公開されたデータセットと手作りのデータセットでテストすることにより、GPT-4を調査します。正式な数学とは対照的に、正式な証明の大規模なデータベースが利用可能(例えば、無駄のない数学ライブラリ)、自然言語数学の現在のデータセットは、言語モデルのベンチマーク言語モデルに使用されます。 GhostsとMinighostsという2つの新しいデータセットを公開することにより、これに対処します。これらは、(1)大学院レベルの数学をカバーすることを目的とした数学の研究者によってキュレーションされた最初の自然言語データセットであり、(2)言語モデルの数学的能力の全体的な概要を提供し、(3)数学的推論の複数の次元を区別します。また、これらのデータセットは、数学者の毎日の専門的な活動で生じるユースケースをエミュレートすることにより、ChatGPTとGPT-4がプロの数学者の役立つアシスタントになることができるかどうかをテストします。モデルには、さまざまな細かいパフォーマンスメトリックの範囲をベンチマークします。高度な数学の場合、これはこれまでで最も詳細な評価努力です。 ChatGptは、数学的検索エンジンとナレッジベースインターフェイスとして機能し、事実を照会するための数学的なアシスタントとして最もうまく使用できることがわかります。 GPT-4は、学部レベルの数学にさらに使用できますが、大学院レベルの難易度では失敗します。 GPT-4およびChatGPTの試験解決能力(選択バイアスの潜在的なケース)に関するメディアの多くの肯定的な報告とは反対に、彼らの全体的な数学的パフォーマンスは大学院生のレベルを大きく下回っています。したがって、あなたの目標がChatGptを使用して大学院レベルの数学試験に合格することである場合は、平均的なピアからコピーする方が良いでしょう。
ライセンスに関する詳細情報については、この論文を参照してください(TL; DRは、自分で作成したすべてがCC BY-NC 4.0で共有されています。著作権で保護された本のすべてのプロンプトについて、それぞれのライセンスが適用されます)
データセットを使用する場合は、私たちの論文を引用してください。
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}