Um conjunto de dados de linguagem natural e uma nova referência para matemática avançada
Investigamos os recursos matemáticos de duas iterações do ChatGPT (lançado em 9 de janeiro de 2023 e 30 de janeiro-2023) e do GPT-4, testando-os em conjuntos de dados publicamente disponíveis, bem como em artesanato, usando uma nova metodologia. Em contraste com a matemática formal, onde estão disponíveis grandes bancos de dados de provas formais (por exemplo, a biblioteca matemática enxuta), conjuntos de dados atuais da matemática de língua natural, usados para comparar modelos de idiomas, cobrem apenas a matemática elementar ou são muito pequenas. Abordamos isso lançando publicamente dois novos conjuntos de dados: fantasmas e minights. Esses são os primeiros conjuntos de dados de linguagem natural, com curadoria de pesquisadores de trabalho em matemática que (1) visam cobrir a matemática de nível de pós-graduação, (2) fornecer uma visão holística dos recursos matemáticos dos modelos de linguagem e (3) distinguir as dimensões múltiplas do raciocínio matemático. Esses conjuntos de dados também testam se o ChatGPT e o GPT-4 podem ser assistentes úteis para matemáticos profissionais, imitando casos de uso que surgem nas atividades profissionais diárias dos matemáticos. Realizamos os modelos em uma variedade de métricas de desempenho de granulação fina. Para matemática avançada, este é o esforço de avaliação mais detalhado até o momento. Descobrimos que o ChatGPT pode ser usado com mais sucesso como assistente matemático para consultar fatos, atuando como um mecanismo de pesquisa matemático e interface da base de conhecimento. Além disso, o GPT-4 pode ser usado para matemática de graduação, mas falha na dificuldade de nível de pós-graduação. Ao contrário de muitos relatórios positivos na mídia sobre as habilidades de solução de exames do GPT-4 e do ChatGPT (um caso potencial de viés de seleção), seu desempenho matemático geral está bem abaixo do nível de um estudante de graduação. Portanto, se o seu objetivo é usar o ChatGPT para passar em um exame de matemática de nível de pós-graduação, você estaria melhor copiar do seu colega comum!
Nós nos referimos ao artigo para obter informações detalhadas sobre a licença (TL; DR tudo o que criamos por nós mesmos é compartilhado sob o CC BY-NC 4.0; para todos os prompts de livros protegidos por direitos autorais, as respectivas licenças se aplicam)
Se você usar nosso conjunto de dados, cite nosso artigo:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}