ผลการประเมินการสอบเข้าวิทยาลัย AI ครั้งแรกได้รับการเผยแพร่ GPT-4o เกิดขึ้นที่สอง

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-23 21:50:02

เมื่อเร็วๆ นี้ ห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ได้จัด "การสอบคัดเลือกเข้าวิทยาลัย" ที่ไม่เหมือนใคร ซึ่งรวมถึง GPT-4o ที่ได้รับการทดสอบอย่างครอบคลุมในภาษาจีน คณิตศาสตร์ และภาษาอังกฤษ โดยใช้รายงานมาตรฐานหลักสูตรใหม่แห่งชาติ I และแนวทางปฏิบัติด้วยตนเอง ความเป็นธรรมและความเป็นกลางของการทดสอบ การทดสอบนี้มีจุดมุ่งหมายเพื่อประเมินความสามารถของโมเดล AI ในการจัดการคำถามสอบเข้าวิทยาลัย และให้ข้อมูลอ้างอิงสำหรับการพัฒนาเทคโนโลยี AI ในอนาคต แบบจำลองที่เข้าร่วมการทดสอบครอบคลุมสถาบันที่มีชื่อเสียงหลายแห่งทั้งในและต่างประเทศ ซึ่งแสดงให้เห็นทิศทางและระดับการพัฒนาเทคโนโลยี AI ในปัจจุบัน

ในโลกของปัญญาประดิษฐ์ การสอบเข้าวิทยาลัยไม่ได้เป็นเพียงเวทีสำหรับมนุษย์อีกต่อไป เมื่อเร็วๆ นี้ ห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ใช้ "การสอบเข้าวิทยาลัย" ที่เป็นเอกลักษณ์เพื่อให้เราเห็นความแข็งแกร่งทางวิชาการของ AI พวกเขานำระบบการประเมินของ OpenCompass มาใช้ และนำแบบจำลอง AI เจ็ดแบบ ซึ่งรวมถึง GPT-4o มาใช้ในการทดสอบความสามารถที่ครอบคลุมในภาษาจีน คณิตศาสตร์ และภาษาอังกฤษ

2_1718848649312_ai2023_A_large_classroom_filled_with_rows_of_robots_sitting_at__db532bea-895e-4609-b80c-5fedf4ecf846.png

การทดสอบนี้ใช้ Paper I ของมาตรฐานหลักสูตรระดับชาติใหม่ ซึ่งทำให้มั่นใจได้ว่าแบบจำลองโอเพ่นซอร์สที่เข้าร่วมทั้งหมดเป็นแบบโอเพ่นซอร์สก่อนการสอบเข้าวิทยาลัย เพื่อให้มั่นใจถึงความยุติธรรมของการทดสอบ นอกจากนี้ "กระดาษคำตอบ" ของ AI เหล่านี้ยังได้รับการตัดสินด้วยตนเองโดยอาจารย์ที่มีประสบการณ์ในการให้คะแนนการสอบเข้าวิทยาลัย โดยมุ่งมั่นที่จะให้ใกล้เคียงกับมาตรฐานการให้คะแนนที่แท้จริง

แบบจำลองที่เข้าร่วมการประเมินมาจากภูมิหลังที่แตกต่างกัน รวมถึงโมเดลบทสนทนาแบบโอเพ่นซอร์ส Mixtral8x22B จาก Mistral สตาร์ทอัพด้าน AI ในฝรั่งเศส, Yi-1.5-34B จาก Zero One Thousand Things Company, GLM-4-9B จาก Zhipu AI และ InternLM2 จาก ห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ -20B-WQX และซีรีส์ Qwen2 ของอาลีบาบา GPT-4o มีส่วนร่วมในการประเมินในฐานะแบบจำลองแหล่งปิดและมีไว้เพื่อการอ้างอิงเท่านั้น

ประกาศผลแล้ว Qwen2-72B อยู่ในอันดับที่ 1 ด้วยคะแนนรวม 303 คะแนน ตามด้วย GPT-4o ด้วย 296 คะแนน และ InternLM2-20B-WQX อยู่ในอันดับที่ 3 ด้วยคะแนน 295.5 โมเดลเหล่านี้ทำงานได้ดีในวิชาภาษาจีนและอังกฤษ โดยมีคะแนนเฉลี่ย 67% ในภาษาจีนและ 81% ในภาษาอังกฤษ อย่างไรก็ตาม ในวิชาคณิตศาสตร์ อัตราคะแนนเฉลี่ยของทุกรุ่นอยู่ที่เพียง 36% เท่านั้น แสดงให้เห็นว่า AI ยังมีพื้นที่อีกมากสำหรับการปรับปรุงการใช้เหตุผลทางคณิตศาสตร์

ครูให้คะแนนได้ทำการวิเคราะห์กระดาษคำตอบของแบบจำลอง AI อย่างครอบคลุม ในวิชาภาษาจีน โดยทั่วไปแบบจำลองจะดีในการอ่านและทำความเข้าใจข้อความสมัยใหม่ แต่จะบกพร่องเล็กน้อยในภาษาจีนคลาสสิกและการเรียบเรียง ในแง่ของคณิตศาสตร์ แม้ว่าแบบจำลองจะมีความสามารถในการจำสูตรที่แข็งแกร่ง แต่ก็ยังขาดการใช้งานที่ยืดหยุ่นในกระบวนการแก้ปัญหา ประสิทธิภาพโดยรวมของวิชาภาษาอังกฤษนั้นดี แต่สำหรับคำถามบางประเภท บางรุ่นมีอัตราการให้คะแนนที่ต่ำกว่า

“การสอบเข้าวิทยาลัยต้นแบบรุ่นใหญ่” นี้ไม่เพียงแต่ทำให้เรามองเห็นศักยภาพของ AI ในด้านวิชาการเท่านั้น แต่ยังเผยให้เห็นข้อจำกัดในการทำความเข้าใจและประยุกต์ความรู้อีกด้วย ในขณะที่เทคโนโลยีก้าวหน้าอย่างต่อเนื่อง เราก็มีเหตุผลที่เชื่อได้ว่า AI ในอนาคตจะฉลาดขึ้นและรับใช้สังคมมนุษย์ได้ดีขึ้น

"การสอบเข้าวิทยาลัย" ของ AI นี้ทำให้เรามองเห็นความก้าวหน้าและข้อบกพร่องของเทคโนโลยี AI ได้อย่างชัดเจน ซึ่งมอบประสบการณ์อันมีค่าสำหรับการพัฒนา AI ในอนาคต และมุมมองใหม่ในการทำความเข้าใจเกี่ยวกับปัญญาประดิษฐ์ของเรา เชื่อกันว่าในอนาคตอันใกล้นี้ AI จะแสดงความสามารถอันทรงพลังมากขึ้นในสาขาต่างๆ มากขึ้น