자연 언어 데이터 세트 및 고급 수학을위한 새로운 벤치 마크
우리는 새로운 방법론을 사용하여 공개적으로 이용 가능한 데이터 세트뿐만 아니라 공개적으로 이용 가능한 데이터 세트에서 테스트하여 ChatGpt (201 년 1 월 9 일 -2023 년 1 월 30 일 -2023 년 1 월 30 일 -2023 년 1 월 30 일 릴리스)의 수학적 기능을 조사합니다. 공식적인 증거의 대규모 데이터베이스 (예 : Lean Mathematical Library)가있는 공식적인 수학과 달리, 자연 언어 수학의 현재 데이터 세트는 언어 모델을 벤치마킹하거나 기본 수학 만 다루거나 매우 작습니다. 우리는 유령과 미니 포스트의 두 가지 새로운 데이터 세트를 공개적으로 공개함으로써이를 해결합니다. 이것들은 (1) 대학원 수준의 수학을 다루고, (2) 언어 모델의 수학적 능력에 대한 전체적인 개요를 제공하고 (3) 수학적 추론의 여러 차원을 구별하는 수학의 수학 연구자들이 큐 레이트 한 최초의 자연 언어 데이터 세트입니다. 이 데이터 세트는 또한 수학자의 일상적인 전문 활동에서 발생하는 사용 사례를 모방함으로써 Chatgpt 및 GPT-4가 전문 수학자에게 도움이 될 수 있는지 여부를 테스트합니다. 우리는 다양한 세밀한 성능 지표에서 모델을 벤치마킹합니다. 고급 수학의 경우 이것은 현재까지 가장 자세한 평가 노력입니다. 우리는 Chatgpt가 수학적 검색 엔진 및 지식 기반 인터페이스 역할을하는 사실을 쿼리하는 수학 조수로 가장 성공적으로 사용할 수 있음을 발견했습니다. GPT-4는 추가로 학부 수준의 수학에 사용할 수 있지만 대학원 수준의 난이도에는 실패합니다. GPT-4 및 Chatgpt의 시험 해결 능력 (선택 편견의 잠재적 사례)에 대한 미디어의 많은 긍정적 인 보고서와는 달리, 전반적인 수학적 성능은 대학원생 수준보다 훨씬 낮습니다. 따라서, 당신의 목표가 chatgpt를 사용하여 대학원 수준의 수학 시험을 통과하는 것이라면, 당신은 평균 동료에서 복사하는 것이 좋습니다!
라이센스에 대한 자세한 정보는 논문을 참조합니다 (TL; 우리가 만든 모든 것은 CC By-NC 4.0에 따라 공유됩니다. 저작권이있는 책의 모든 프롬프트에 대해 각 라이센스는 적용됩니다).
데이터 세트를 사용하는 경우 논문을 인용하십시오.
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}