การสำรวจประสิทธิภาพของ GPT-4 และ CHATGPT (ทั้ง OpenAI) บน Project Euler ชุดของปัญหาผสมผสานการใช้เหตุผลทางคณิตศาสตร์และการเขียนโปรแกรม
ที่นี่ฉันให้ข้อความและสมการ (ในกรณีที่จำเป็นโดยใช้การจัดรูปแบบ LaTex ซึ่ง GPT-4 และ ChatGPT สามารถแยกวิเคราะห์) เพื่อแสดงปัญหาออยเลอร์ของโครงการ 1-30 เป็นพรอมต์ เพื่อความสอดคล้องในทุกกรณีฉันเพิ่มประโยคที่ขอวิธีแก้ปัญหาในรูปแบบของสคริปต์ Python หลังจากประเมินสคริปต์นี้กับ baselines ความจริงพื้นดินที่รู้จักกันแล้วฉันก็แจ้งให้ GPT-4 หรือ CHATGPT ลองอีกครั้งหรือย้ายไปยังปัญหาต่อไป
จากนั้นฉันก็แก้ไขปัญหาที่แนวคิดและโครงสร้างของปัญหายังคงเหมือนเดิม แต่มีการเปลี่ยนแปลงโดยเฉพาะ (เช่นตัวอย่างนี้); สิ่งนี้ให้ผลลัพธ์ที่น่าสนใจยิ่งขึ้น (ดูความคิดเห็น)

ที่นี่กรีนหมายถึง chatgpt ค้นหาวิธีแก้ปัญหาที่ถูกต้องในตอนแรกถาม; สีส้มที่ครั้งที่สองถาม; สีแดงหมายความว่าไม่พบวิธีแก้ปัญหา สีเทาหมายความว่าฉันไม่สามารถหาวิธีที่ดีในการเป็นตัวแทนของปัญหาโดยปกติแล้วเพราะต้องเข้าใจภาพ
การกระตุ้นทั้ง GPT-4 และ ChatGPT ด้วยปัญหาดั้งเดิมยังช่วยให้สามารถเปรียบเทียบประสิทธิภาพโดยตรงได้

GPT-4 มีประสิทธิภาพสูงกว่า Chatgpt ในปัญหาที่ตรงกัน
| ปัญหา # | วิธีแก้ปัญหาพื้นดิน | โซลูชั่น chatgpt | โซลูชั่น GPT-4 |
|---|---|---|---|
| ปัญหาที่ 1 | ปัญหาที่ 1 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 2 | ปัญหาที่ 2 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 3 | ปัญหา 3 การแก้ปัญหา | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหาที่ 4 | ปัญหาที่ 4 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 5 | ปัญหาที่ 5 โซลูชัน | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก |
| ปัญหา 6 | ปัญหา 6 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 7 | ปัญหาที่ 7 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 8 | ปัญหา 8 โซลูชัน | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก |
| ปัญหา 9 | ปัญหา 9 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 10 | ปัญหา 10 การแก้ปัญหา | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหาที่ 11 | ปัญหาที่ 11 โซลูชัน | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง |
| ปัญหา 12 | ปัญหา 12 การแก้ปัญหา | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 13 | ปัญหา 13 การแก้ปัญหา | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง |
| ปัญหา 14 | ปัญหา 14 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 15 | ปัญหา 15 การแก้ปัญหา | N/A | N/A |
| ปัญหา 16 | ปัญหา 16 การแก้ปัญหา | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 17 | ปัญหา 17 การแก้ปัญหา | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก |
| ปัญหา 18 | ปัญหา 18 โซลูชัน | N/A | ความพยายามครั้งแรก |
| ปัญหา 19 | ปัญหา 19 โซลูชัน | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก |
| ปัญหา 20 | ปัญหา 20 การแก้ปัญหา | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 21 | ปัญหา 21 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 22 | ปัญหา 22 โซลูชัน | N/A | N/A |
| ปัญหา 23 | ปัญหา 23 โซลูชัน | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก |
| ปัญหา 24 | ปัญหา 24 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 25 | ปัญหา 25 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 26 | ปัญหา 26 โซลูชัน | ความพยายามครั้งแรก - ความพยายามครั้งที่สอง | ความพยายามครั้งแรก |
| ปัญหา 27 | ปัญหา 27 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 28 | ปัญหา 28 โซลูชัน | N/A | ความพยายามครั้งแรก |
| ปัญหา 29 | ปัญหา 29 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
| ปัญหา 30 | ปัญหา 30 โซลูชัน | ความพยายามครั้งแรก | ความพยายามครั้งแรก |
การแสดงนั้นน่าประทับใจอย่างปฏิเสธไม่ได้เนื่องจากความท้าทายของปัญหาเหล่านี้ (และดีกว่าประสิทธิภาพของ CHATGPT อย่างมีนัยสำคัญใน PROMTP ที่ตรงกัน) ปัญหาทั้งสองที่ GPT-4 ล้มเหลวในการผลิตโซลูชันการทำงานทั้งสองเกี่ยวข้องกับการแยกวิเคราะห์ตัวเลขที่ยาวมาก (400 และ 5,000 หลักตามลำดับ) อาจแนะนำความล้มเหลวของการโทเค็นมากกว่าการให้เหตุผลตัวเอง

GPT-4 มีประสิทธิภาพสูงกว่า CHATGPT ในแง่ของความแม่นยำครั้งเดียวในช่วงของปัญหาทางคณิตศาสตร์และการเขียนโปรแกรม
การแสดงในความคิดของฉันค่อนข้างน่าประทับใจ ChatGPT ไม่ได้ทำการสำรอกตัวอย่างรหัสจากชุดข้อมูลการฝึกอบรม (ไม่มีสคริปต์ Python ที่สร้างขึ้นตรงกับ GitHub หรือ Gitlab) และบางครั้งก็พยายามเพิ่มประสิทธิภาพการแก้ปัญหา
ตามที่ระบุไว้โดยคนอื่น ๆ โมเดลต้องดิ้นรนด้วยจำนวนมากแม้ว่าพวกเขาจะไม่เพิ่มความยากลำบากในแนวคิดของปัญหา (ปัญหา CF 13)
ในที่สุดปัญหาที่ได้รับการแก้ไขก็ให้ข้อมูลเชิงลึก ในหลายกรณีโมเดลสร้างสคริปต์ Python ที่สร้างคำตอบที่ถูกต้อง (สำหรับปัญหาที่แก้ไขแล้ว) แต่ Chatgpt เขียนคำตอบตัวเลขจากคำถามดั้งเดิม ในกรณีอื่น ๆ มันเพิกเฉยต่อถ้อยคำที่แก้ไขทั้งหมดและให้วิธีแก้ปัญหาการทำงานแก่ฉันกับกรอบต้นฉบับของปัญหา