ชุดข้อมูลภาษาธรรมชาติและเกณฑ์มาตรฐานใหม่สำหรับคณิตศาสตร์ขั้นสูง
เราตรวจสอบความสามารถทางคณิตศาสตร์ของการทำซ้ำสองครั้งของ CHATGPT (เปิดตัว 9 มกราคม-20123 และ 30 มกราคม-20123) และของ GPT-4 โดยการทดสอบพวกเขาในชุดข้อมูลที่เปิดเผยต่อสาธารณะ ในทางตรงกันข้ามกับคณิตศาสตร์อย่างเป็นทางการที่มีฐานข้อมูลขนาดใหญ่ของการพิสูจน์อย่างเป็นทางการ (เช่นไลบรารีคณิตศาสตร์แบบลีน) ชุดข้อมูลปัจจุบันของคณิตศาสตร์ภาษาธรรมชาติที่ใช้ในการเปรียบเทียบแบบจำลองภาษา เรากล่าวถึงสิ่งนี้โดยปล่อยชุดข้อมูลใหม่สองชุดต่อสาธารณะ: Ghosts and Minighosts เหล่านี้เป็นชุดข้อมูลภาษาธรรมชาติชุดแรกที่ดูแลโดยนักวิจัยที่ทำงานในวิชาคณิตศาสตร์ที่ (1) มุ่งมั่นที่จะครอบคลุมคณิตศาสตร์ระดับบัณฑิตศึกษา (2) ให้ภาพรวมแบบองค์รวมของความสามารถทางคณิตศาสตร์ของแบบจำลองภาษาและ (3) แยกแยะหลายมิติของการใช้เหตุผลทางคณิตศาสตร์ ชุดข้อมูลเหล่านี้ยังทดสอบว่า ChatGPT และ GPT-4 สามารถเป็นผู้ช่วยที่เป็นประโยชน์ต่อนักคณิตศาสตร์มืออาชีพหรือไม่โดยเลียนแบบกรณีการใช้งานที่เกิดขึ้นในกิจกรรมระดับมืออาชีพประจำวันของนักคณิตศาสตร์ เราเปรียบเทียบโมเดลในช่วงของการวัดประสิทธิภาพที่มีความละเอียด สำหรับคณิตศาสตร์ขั้นสูงนี่เป็นความพยายามในการประเมินรายละเอียดมากที่สุดจนถึงปัจจุบัน เราพบว่า chatgpt สามารถใช้งานได้สำเร็จที่สุดในฐานะผู้ช่วยทางคณิตศาสตร์สำหรับการสอบถามข้อเท็จจริงทำหน้าที่เป็นเครื่องมือค้นหาทางคณิตศาสตร์และอินเทอร์เฟซฐานความรู้ GPT-4 สามารถใช้เพิ่มเติมสำหรับคณิตศาสตร์ระดับปริญญาตรี แต่ล้มเหลวในความยากลำบากระดับบัณฑิตศึกษา ตรงกันข้ามกับรายงานเชิงบวกจำนวนมากในสื่อเกี่ยวกับความสามารถในการแก้ปัญหาการสอบของ GPT-4 และ CHATGPT (กรณีที่มีอคติในการเลือก) ประสิทธิภาพทางคณิตศาสตร์โดยรวมของพวกเขาต่ำกว่าระดับของนักศึกษาระดับบัณฑิตศึกษา ดังนั้นหากเป้าหมายของคุณคือการใช้ CHATGPT เพื่อผ่านการสอบคณิตศาสตร์ระดับบัณฑิตศึกษาคุณจะดีกว่าการคัดลอกจากเพื่อนโดยเฉลี่ยของคุณ!
เราอ้างถึงบทความสำหรับข้อมูลโดยละเอียดเกี่ยวกับใบอนุญาต (TL; DR ทุกสิ่งที่เราสร้างขึ้นด้วยตัวเราเองจะถูกแบ่งปันภายใต้ CC BY-NC 4.0; สำหรับการแจ้งเตือนทั้งหมดจากหนังสือที่มีลิขสิทธิ์ใบอนุญาตที่เกี่ยวข้อง)
หากคุณใช้ชุดข้อมูลของเราโปรดอ้างอิงกระดาษของเรา:
@article{frieder2023mathematical,
title={Mathematical capabilities of chatgpt},
author={Frieder, Simon and Pinchetti, Luca and Griffiths, Ryan-Rhys and Salvatori, Tommaso and Lukasiewicz, Thomas and Petersen, Philipp Christian and Chevalier, Alexis and Berner, Julius},
journal={arXiv preprint arXiv:2301.13867},
year={2023}
}