ในการสอบเข้าวิทยาลัยในปี 2024 มีโมเดล AI ขนาดใหญ่ 9 โมเดลเข้าร่วมในความท้าทายที่ไม่เคยมีมาก่อนในการสอบเข้าวิทยาลัย โดยเฉพาะอย่างยิ่งการสอบเหอหนานที่ยากมาก การทดสอบนี้จัดขึ้นโดยสื่อมีวัตถุประสงค์เพื่อประเมินความสามารถที่แท้จริงของ AI ในสาขาวิชาการ และให้ข้อมูลอันมีค่าสำหรับความเข้าใจของเราเกี่ยวกับความแตกต่างระหว่าง AI และสติปัญญาของมนุษย์ ผลลัพธ์ของการทดสอบนี้สะดุดตามาก ผลลัพธ์ของโมเดล AI บางรุ่นนั้นเกินผลลัพธ์บรรทัดแรกด้วยซ้ำ ซึ่งกระตุ้นความสนใจอย่างกว้างขวางและการพูดคุยอย่างดุเดือด และให้แนวคิดใหม่สำหรับทิศทางการพัฒนาเทคโนโลยี AI ในอนาคต
ในบรรดา AI ทั้งเก้าคนที่เข้าร่วมการทดสอบ คะแนนของ AI ทั้งสี่นั้นเกินคะแนนบรรทัดแรกของการสอบเข้าวิทยาลัยเหอหนาน GPT-4o คว้าอันดับหนึ่งด้วยคะแนนสูงสุด 562 คะแนน แซงบรรทัดแรกด้วยคะแนน 41 คะแนน ขณะที่ Doubao จาก ByteDance ตามมาติดๆ ด้วยคะแนน 542.5 คะแนน กลายเป็นรุ่นที่ดีที่สุดในบรรดารุ่นในประเทศ

AI ทำงานได้ดีในวิชาศิลปศาสตร์ โดยเฉพาะวิชาภาษาจีนและอังกฤษ แต่ไม่ได้ดีในวิชาวิทยาศาสตร์ โดยเฉพาะคณิตศาสตร์ จะเห็นได้ว่า AI ได้แสดงให้เห็นถึงข้อได้เปรียบที่ชัดเจนในวิชาภาษา และความสามารถในการเข้าใจบทกวีโบราณก็น่าประทับใจ

ประสิทธิภาพของ AI ในคำถามการใช้เหตุผลง่ายๆ เป็นที่ยอมรับได้ แต่ประสิทธิภาพของ AI ในคำถามที่ต้องการการสืบค้นและการพิสูจน์ที่ซับซ้อนนั้นไม่ดีนัก ซึ่งแสดงให้เห็นว่าความสามารถเชิงตรรกะจำเป็นต้องได้รับการปรับปรุง ในสาขาศิลปศาสตร์ครอบคลุม วิชาภูมิศาสตร์ทำได้แย่ที่สุด ในขณะที่วิชาวิทยาศาสตร์ครอบคลุม วิชาชีววิทยาทำได้ค่อนข้างดี GPT-4o มีผลการดำเนินงานโดดเด่นในเรื่องการเมือง ด้วยคะแนนสูงถึง 91.5 คะแนน
วิธีทดสอบและมาตรฐานการให้คะแนน
รอบการทดสอบ: เพื่อลดผลกระทบของการสุ่ม ทุกวิชาจะถูกทดสอบเป็นเวลาสองรอบ และนำคะแนนเฉลี่ยมาเป็นคะแนนสุดท้าย
รูปแบบอินพุต: สูตรถูกป้อนในรูปแบบ Markdown/LaTeX สำหรับคำถามเกี่ยวกับรูปภาพ รูปภาพและข้อความที่เกี่ยวข้องจะถูกป้อนตามความสามารถในการจดจำของโมเดล
การดำเนินการทดสอบ: ผู้ให้บริการข้อมูล AI มืออาชีพจัดทำภาพหน้าจอการทดสอบที่เป็นหนึ่งเดียวและเป็นมาตรฐานเพื่อให้มั่นใจถึงความเป็นธรรมของการทดสอบ
วิธีการให้คะแนน: มีการใช้มาตรฐานการให้คะแนนเดียวกันกับผู้สมัครที่เป็นมนุษย์ เพื่อให้มั่นใจว่าการให้คะแนนมีความเป็นธรรม
ความพยายามของ AI ในการเข้าร่วมการสอบเข้าวิทยาลัยไม่เพียงแต่แสดงให้เห็นถึงข้อดีของ AI ในสาขาเฉพาะเท่านั้น แต่ยังเผยให้เห็นข้อบกพร่องในด้านการใช้เหตุผลเชิงตรรกะและการพิสูจน์ทางคณิตศาสตร์อีกด้วย ดังที่ผู้สมัคร AI รายหนึ่งกล่าวไว้ในเรียงความของเขาว่า "ถนนนั้นยาวและยาว และฉันจะค้นหาขึ้นๆ ลงๆ" นี่ไม่ได้เป็นเพียงการพรรณนาถึงพัฒนาการของ AI เท่านั้น แต่ยังเป็นคำอธิบายที่ชัดเจนเกี่ยวกับการสำรวจอย่างต่อเนื่องของมนุษย์อีกด้วย โลกที่ไม่รู้จัก ผ่านการทดสอบนี้ เรามีความเข้าใจอย่างลึกซึ้งยิ่งขึ้นเกี่ยวกับระดับความฉลาดของ AI และยังให้ข้อมูลอ้างอิงที่มีคุณค่าสำหรับทิศทางการพัฒนาในอนาคตของ AI อีกด้วย
รายชื่อผู้สมัครประกอบด้วยผลิตภัณฑ์ AI ที่มีชื่อเสียง เช่น GPT-4o ของ OpenAI, Doubao ของ ByteDance และ Wenxin 4.0 ของ Baidu ผลการปฏิบัติงานของพวกเขาในการสอบเข้าวิทยาลัยนี้จะมีผลกระทบอย่างมากต่อการพัฒนาเทคโนโลยี AI อย่างไม่ต้องสงสัย
การทดลองสอบเข้าวิทยาลัย AI นี้ให้ข้อมูลเชิงลึกอย่างลึกซึ้งเกี่ยวกับสถานะปัจจุบันและทิศทางการพัฒนาปัญญาประดิษฐ์ในอนาคต และยังเน้นย้ำถึงความท้าทายที่เรายังคงเผชิญในการแสวงหาปัญญาประดิษฐ์ทั่วไป ผมเชื่อว่าในอนาคต AI จะแสดงศักยภาพในด้านต่างๆ มากขึ้น และนำความก้าวหน้ามาสู่สังคมมนุษย์ให้มากขึ้น