GPT 4 ChatGPT Project Euler ดาวน์โหลด - GPT 4 ChatGPT Project Euler ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

GPT 4 ChatGPT Project Euler

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

GPT-4 & CHATGPT-ออยเลอร์โครงการ

การสำรวจประสิทธิภาพของ GPT-4 และ CHATGPT (ทั้ง OpenAI) บน Project Euler ชุดของปัญหาผสมผสานการใช้เหตุผลทางคณิตศาสตร์และการเขียนโปรแกรม

ผลลัพธ์

ที่นี่ฉันให้ข้อความและสมการ (ในกรณีที่จำเป็นโดยใช้การจัดรูปแบบ LaTex ซึ่ง GPT-4 และ ChatGPT สามารถแยกวิเคราะห์) เพื่อแสดงปัญหาออยเลอร์ของโครงการ 1-30 เป็นพรอมต์ เพื่อความสอดคล้องในทุกกรณีฉันเพิ่มประโยคที่ขอวิธีแก้ปัญหาในรูปแบบของสคริปต์ Python หลังจากประเมินสคริปต์นี้กับ baselines ความจริงพื้นดินที่รู้จักกันแล้วฉันก็แจ้งให้ GPT-4 หรือ CHATGPT ลองอีกครั้งหรือย้ายไปยังปัญหาต่อไป

จากนั้นฉันก็แก้ไขปัญหาที่แนวคิดและโครงสร้างของปัญหายังคงเหมือนเดิม แต่มีการเปลี่ยนแปลงโดยเฉพาะ (เช่นตัวอย่างนี้); สิ่งนี้ให้ผลลัพธ์ที่น่าสนใจยิ่งขึ้น (ดูความคิดเห็น)

คำอธิบายภาพ

ที่นี่กรีนหมายถึง chatgpt ค้นหาวิธีแก้ปัญหาที่ถูกต้องในตอนแรกถาม; สีส้มที่ครั้งที่สองถาม; สีแดงหมายความว่าไม่พบวิธีแก้ปัญหา สีเทาหมายความว่าฉันไม่สามารถหาวิธีที่ดีในการเป็นตัวแทนของปัญหาโดยปกติแล้วเพราะต้องเข้าใจภาพ

การกระตุ้นทั้ง GPT-4 และ ChatGPT ด้วยปัญหาดั้งเดิมยังช่วยให้สามารถเปรียบเทียบประสิทธิภาพโดยตรงได้

คำอธิบายภาพ

GPT-4 มีประสิทธิภาพสูงกว่า Chatgpt ในปัญหาที่ตรงกัน

ปัญหา #	วิธีแก้ปัญหาพื้นดิน	โซลูชั่น chatgpt	โซลูชั่น GPT-4
ปัญหาที่ 1	ปัญหาที่ 1 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 2	ปัญหาที่ 2 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 3	ปัญหา 3 การแก้ปัญหา	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหาที่ 4	ปัญหาที่ 4 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 5	ปัญหาที่ 5 โซลูชัน	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก
ปัญหา 6	ปัญหา 6 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 7	ปัญหาที่ 7 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 8	ปัญหา 8 โซลูชัน	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก
ปัญหา 9	ปัญหา 9 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 10	ปัญหา 10 การแก้ปัญหา	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหาที่ 11	ปัญหาที่ 11 โซลูชัน	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง
ปัญหา 12	ปัญหา 12 การแก้ปัญหา	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 13	ปัญหา 13 การแก้ปัญหา	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง
ปัญหา 14	ปัญหา 14 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 15	ปัญหา 15 การแก้ปัญหา	N/A	N/A
ปัญหา 16	ปัญหา 16 การแก้ปัญหา	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 17	ปัญหา 17 การแก้ปัญหา	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก
ปัญหา 18	ปัญหา 18 โซลูชัน	N/A	ความพยายามครั้งแรก
ปัญหา 19	ปัญหา 19 โซลูชัน	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก
ปัญหา 20	ปัญหา 20 การแก้ปัญหา	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 21	ปัญหา 21 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 22	ปัญหา 22 โซลูชัน	N/A	N/A
ปัญหา 23	ปัญหา 23 โซลูชัน	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก
ปัญหา 24	ปัญหา 24 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 25	ปัญหา 25 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 26	ปัญหา 26 โซลูชัน	ความพยายามครั้งแรก - ความพยายามครั้งที่สอง	ความพยายามครั้งแรก
ปัญหา 27	ปัญหา 27 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 28	ปัญหา 28 โซลูชัน	N/A	ความพยายามครั้งแรก
ปัญหา 29	ปัญหา 29 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก
ปัญหา 30	ปัญหา 30 โซลูชัน	ความพยายามครั้งแรก	ความพยายามครั้งแรก

ความเห็น

GPT-4

การแสดงนั้นน่าประทับใจอย่างปฏิเสธไม่ได้เนื่องจากความท้าทายของปัญหาเหล่านี้ (และดีกว่าประสิทธิภาพของ CHATGPT อย่างมีนัยสำคัญใน PROMTP ที่ตรงกัน) ปัญหาทั้งสองที่ GPT-4 ล้มเหลวในการผลิตโซลูชันการทำงานทั้งสองเกี่ยวข้องกับการแยกวิเคราะห์ตัวเลขที่ยาวมาก (400 และ 5,000 หลักตามลำดับ) อาจแนะนำความล้มเหลวของการโทเค็นมากกว่าการให้เหตุผลตัวเอง

ข้อความ alt

GPT-4 มีประสิทธิภาพสูงกว่า CHATGPT ในแง่ของความแม่นยำครั้งเดียวในช่วงของปัญหาทางคณิตศาสตร์และการเขียนโปรแกรม

CHATGPT

การแสดงในความคิดของฉันค่อนข้างน่าประทับใจ ChatGPT ไม่ได้ทำการสำรอกตัวอย่างรหัสจากชุดข้อมูลการฝึกอบรม (ไม่มีสคริปต์ Python ที่สร้างขึ้นตรงกับ GitHub หรือ Gitlab) และบางครั้งก็พยายามเพิ่มประสิทธิภาพการแก้ปัญหา $$ sum_ {k = 1}^nk = frac {1} {2} n (n+1) $$ นิพจน์สำหรับตัวเลขสามเหลี่ยมโดยไม่ต้องแจ้ง)

ตามที่ระบุไว้โดยคนอื่น ๆ โมเดลต้องดิ้นรนด้วยจำนวนมากแม้ว่าพวกเขาจะไม่เพิ่มความยากลำบากในแนวคิดของปัญหา (ปัญหา CF 13)

ในที่สุดปัญหาที่ได้รับการแก้ไขก็ให้ข้อมูลเชิงลึก ในหลายกรณีโมเดลสร้างสคริปต์ Python ที่สร้างคำตอบที่ถูกต้อง (สำหรับปัญหาที่แก้ไขแล้ว) แต่ Chatgpt เขียนคำตอบตัวเลขจากคำถามดั้งเดิม ในกรณีอื่น ๆ มันเพิกเฉยต่อถ้อยคำที่แก้ไขทั้งหมดและให้วิธีแก้ปัญหาการทำงานแก่ฉันกับกรอบต้นฉบับของปัญหา

ขยาย

ข้อมูลเพิ่มเติม