Ein natürlicher Datensatz und ein neuer Benchmark für fortgeschrittene Mathematik
Wir untersuchen die mathematischen Funktionen von zwei Iterationen von ChatGPT (veröffentlicht vom 9. Januar 2023 und 30. Januar-2023) und von GPT-4, indem sie sie auf öffentlich verfügbaren Datensätzen sowie handgefertigten und handgefertigten Methoden testen. Im Gegensatz zu formalen Mathematik, in der große Datenbanken mit formalen Beweisen verfügbar sind (z. B. die Lean Mathematical Library), aktuelle Datensätze der mathematischen natürlichen Sprache, die zum Benchmark-Sprachmodelle verwendet werden, entweder nur elementare Mathematik abdecken oder sehr klein sind. Wir befassen uns, indem wir zwei neue Datensätze öffentlich veröffentlichen: Geister und Minighosts. Dies sind die ersten natürlichen Datensätze, die von arbeitenden Forschern in Mathematik kuratiert wurden, die (1) die Abdeckung von Mathematikstudiengraden abdecken, (2) einen ganzheitlichen Überblick über die mathematischen Funktionen von Sprachmodellen und (3) mehrere Dimensionen des mathematischen Denkens unterscheiden. Diese Datensätze testen auch, ob ChatGPT und GPT-4 für professionelle Mathematiker hilfreiche Assistenten sein können, indem sie Anwendungsfälle nachahmt, die sich in den täglichen beruflichen Aktivitäten von Mathematikern ergeben. Wir bewerten die Modelle für eine Reihe feinkörniger Leistungsmetriken. Für fortgeschrittene Mathematik ist dies die bisher detaillierteste Bewertungsanstrengung. Wir stellen fest, dass ChatGPT am erfolgreichsten als mathematischer Assistent für die Abfrage von Fakten verwendet werden kann und als mathematische Suchmaschinen- und Wissensbasis -Schnittstelle fungiert. GPT-4 kann zusätzlich für Mathematik auf Bachelor-Ebene verwendet werden, scheitert jedoch bei Schwierigkeiten auf Graduiertenebene. Im Gegensatz zu vielen positiven Berichten in den Medien über die Fähigkeiten von GPT-4 und Chatgpt (ein potenzieller Fall von Selektionsverzerrungen) liegt ihre mathematische Leistung der mathematischen Leistung deutlich unter dem Grad eines Doktoranden. Wenn Ihr Ziel es ist, Chatgpt zu verwenden, um eine Mathematikprüfung auf Graduiertenebene zu bestehen, wären Sie besser, wenn Sie von einem durchschnittlichen Kollegen kopieren würden!
Wir verweisen auf das Papier, um detaillierte Informationen über die Lizenz zu erhalten (TL; Dr. alles, was wir von uns selbst erstellt haben, wird unter CC BY-NC 4.0 geteilt. Für alle Eingabeaufforderungen aus urheberrechtlich geschützten Büchern gelten die jeweiligen Lizenzen.
Wenn Sie unseren Datensatz verwenden, zitieren Sie bitte unser Papier:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}