Dataset bahasa alami dan tolok ukur baru untuk matematika lanjutan
Kami menyelidiki kemampuan matematika dari dua iterasi chatgpt (dirilis 9-Januari-2023 dan 30-Januari-2023) dan GPT-4 dengan menguji mereka pada set data yang tersedia untuk umum, serta yang dibuat dengan tangan, menggunakan metodologi baru. Berbeda dengan matematika formal, di mana basis data besar bukti formal tersedia (misalnya, perpustakaan matematika lean), kumpulan data matematika bahasa alami, yang digunakan untuk membandingkan model bahasa, baik hanya mencakup matematika dasar atau sangat kecil. Kami membahas ini dengan secara terbuka merilis dua dataset baru: hantu dan minighosts. Ini adalah dataset bahasa alami pertama yang dikuratori oleh peneliti yang bekerja dalam matematika yang (1) bertujuan untuk mencakup matematika tingkat pascasarjana, (2) memberikan tinjauan holistik tentang kemampuan matematika model bahasa, dan (3) membedakan berbagai dimensi penalaran matematika. Kumpulan data ini juga menguji apakah ChatGPT dan GPT-4 dapat menjadi asisten yang membantu untuk matematikawan profesional dengan meniru kasus penggunaan yang muncul dalam kegiatan profesional sehari-hari ahli matematika. Kami membandingkan model pada berbagai metrik kinerja berbutir halus. Untuk matematika tingkat lanjut, ini adalah upaya evaluasi yang paling rinci hingga saat ini. Kami menemukan bahwa chatgpt dapat digunakan paling sukses sebagai asisten matematika untuk fakta -fakta kueri, bertindak sebagai mesin pencari matematika dan antarmuka basis pengetahuan. GPT-4 juga dapat digunakan untuk matematika tingkat sarjana tetapi gagal pada kesulitan tingkat pascasarjana. Berlawanan dengan banyak laporan positif di media tentang GPT-4 dan kemampuan pemecahan ujian ChatGPT (kasus potensial bias seleksi), kinerja matematika keseluruhan mereka jauh di bawah tingkat mahasiswa pascasarjana. Oleh karena itu, jika tujuan Anda adalah menggunakan chatgpt untuk lulus ujian matematika tingkat pascasarjana, Anda akan lebih baik menyalin dari rata-rata rekan Anda!
Kami merujuk ke makalah untuk informasi terperinci tentang lisensi (TL; DR semua yang kami buat sendiri dibagikan di bawah CC BY-NC 4.0; untuk semua petunjuk dari buku yang dilindungi hak cipta, lisensi masing-masing berlaku)
Jika Anda menggunakan dataset kami, silakan kutip kertas kami:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}