Un conjunto de datos en idioma natural y un nuevo punto de referencia para las matemáticas avanzadas
Investigamos las capacidades matemáticas de dos iteraciones de CHATGPT (lanzados del 9 al 9 de enero de 2023 y 30-enero-2023) y de GPT-4 probándolos en conjuntos de datos disponibles públicamente, así como los hechos a mano, utilizando una metodología novedosa. A diferencia de las matemáticas formales, donde hay grandes bases de datos de pruebas formales disponibles (por ejemplo, la biblioteca matemática Lean), conjuntos de datos actuales de matemáticas en idioma natural, utilizados para comparar modelos de idiomas, ya sea cubriendo solo matemáticas elementales o son muy pequeños. Abordamos esto lanzando públicamente dos nuevos conjuntos de datos: fantasmas y minighosts. Estos son los primeros conjuntos de datos de lengua natural comisariada por investigadores que trabajan en matemáticas que (1) tienen como objetivo cubrir las matemáticas a nivel de posgrado, (2) proporcionan una visión general holística de las capacidades matemáticas de los modelos de idiomas, y (3) distinguir múltiples dimensiones de razonamiento matemático. Estos conjuntos de datos también prueban si ChatGPT y GPT-4 pueden ser asistentes útiles para matemáticos profesionales al emular casos de uso que surgen en las actividades profesionales diarias de los matemáticos. Comparamos los modelos en una gama de métricas de rendimiento de grano fino. Para las matemáticas avanzadas, este es el esfuerzo de evaluación más detallado hasta la fecha. Encontramos que ChatGPT se puede usar con mayor éxito como un asistente matemático para consultar hechos, actuando como un motor de búsqueda matemático e interfaz de base de conocimiento. GPT-4 también se puede utilizar para las matemáticas a nivel de pregrado, pero falla en la dificultad a nivel de posgrado. Al contrario de muchos informes positivos en los medios de comunicación sobre las habilidades de resolución de exámenes GPT-4 y ChatGPT (un posible caso de sesgo de selección), su rendimiento matemático general está muy por debajo del nivel de un estudiante graduado. Por lo tanto, si su objetivo es usar ChatGPT para aprobar un examen de matemáticas de nivel de posgrado, ¡sería mejor copiar de su compañero promedio!
Nos referimos al documento para obtener información detallada sobre la licencia (TL; Dr Todo lo que creamos por nosotros mismos se comparte bajo CC BY-NC 4.0; Para todas las indicaciones de los libros con derechos de autor, se aplican las licencias respectivas)
Si usa nuestro conjunto de datos, cite nuestro documento:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}