โมเดลภาษาขนาดใหญ่ของ Claude 3.5 Sonnet ที่พัฒนาโดย Anthropic ทำงานได้ดีมากในการทดสอบล่าสุด โดยได้รับคะแนนที่น่าอัศจรรย์ถึง 67.2% ในการทดสอบการตอบคำถามทางวิทยาศาสตร์ (GPQA) ระดับบัณฑิตศึกษา ซึ่งทำลายคะแนน 65% เป็นครั้งแรก และยังเหนือกว่าค่าเฉลี่ยระดับปริญญาเอกระดับมืออาชีพอีกด้วย การพัฒนาครั้งนี้แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ได้ก้าวไปสู่หลักชัยใหม่ในการทำความเข้าใจและตอบความรู้ทางวิทยาศาสตร์ขั้นสูง และยังนำความเป็นไปได้ที่ไม่จำกัดสำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาต่างๆ ในอนาคต ต่อไปนี้จะอธิบายรายละเอียดเกี่ยวกับประสิทธิภาพที่โดดเด่นของ Claude 3.5 Sonnet และความก้าวหน้าทางเทคโนโลยีที่อยู่เบื้องหลัง
Claude 3.5 Sonnet รุ่นล่าสุดของ Anthropic แสดงให้เห็นประสิทธิภาพที่น่าประทับใจในการรีวิวทางเทคนิคเมื่อเร็วๆ นี้ ซึ่งเหนือกว่าระดับปริญญาเอกระดับมืออาชีพด้วยซ้ำ ในการทดสอบการตอบคำถามระดับบัณฑิตศึกษา (GPQA) Claude3.5Sonnet ได้คะแนน 67.2% นี่ไม่ใช่เพียงครั้งแรกที่แบบจำลองภาษาขนาดใหญ่มีคะแนนเกิน 65% ในการประเมิน แต่ยังแสดงถึงความก้าวหน้าในการทำความเข้าใจอีกด้วย และตอบโจทย์วิทยาศาสตร์ขั้นสูง

GPQA คือการทดสอบเกณฑ์มาตรฐานที่วัดความสามารถของแบบจำลองทางภาษาในการตั้งคำถามและตอบคำถามทางวิทยาศาสตร์ในระดับบัณฑิตศึกษา โดยครอบคลุมชุดคำถามที่ซับซ้อนและลึกลับ และให้ความสำคัญกับความสามารถในการให้เหตุผลและบูรณาการความรู้ของแบบจำลองสูง ในการทดสอบที่ท้าทายนี้ คะแนนเฉลี่ยสำหรับผู้สำเร็จการศึกษาระดับปริญญาเอกทั่วไปคือประมาณ 34% ในขณะที่คะแนนเฉลี่ยสำหรับผู้สำเร็จการศึกษาระดับปริญญาเอกในสาขาเฉพาะทางคือ 65% เป็นที่น่าสังเกตว่าโมเดลภาษาที่มีคะแนน GPQA 60% มีระดับสติปัญญาเทียบเท่ากับ IQ150 โดยประมาณ

แม้ว่าขณะนี้ยังไม่มีข้อมูลเฉพาะเกี่ยวกับ GPT-4o และ GPT-4T ในการประเมิน GPQA แต่มีการคาดเดาจากข้อมูลที่มีอยู่ซึ่งดูเหมือนว่า Claude3.5Sonnet จะทำงานได้ดีกว่าทั้งสองรุ่นนี้ ในการประเมินอื่นๆ ที่เกี่ยวข้อง เช่น การประเมิน 0-shot CoT นั้น Claude3.5Sonnet ยังมีคะแนนสูงกว่า GPT-4o (53.6%) และ GPT-4T (48.0%) ซึ่งพิสูจน์ให้เห็นถึงความเป็นผู้นำในด้านความเข้าใจภาษาและการตอบคำถามอีกด้วย
ความสำเร็จของ Anthropic นี้ไม่เพียงแต่แสดงให้เห็นถึงความสามารถอันทรงพลังของ Claude3.5Sonnet เท่านั้น แต่ยังสร้างมาตรฐานใหม่สำหรับโมเดลภาษาขนาดใหญ่ในการจัดการงานคำถามและคำตอบความรู้ขั้นสูงอีกด้วย ด้วยความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่อง ศักยภาพการใช้งานของโมเดลเหล่านี้ในด้านต่างๆ จะกว้างขึ้นอย่างไม่ต้องสงสัยในอนาคต
ประสิทธิภาพที่ก้าวล้ำของ Claude 3.5 Sonnet บ่งชี้ว่าแบบจำลองภาษาขนาดใหญ่จะมีบทบาทสำคัญมากขึ้นในด้านการวิจัยทางวิทยาศาสตร์และการได้มาซึ่งความรู้ ในอนาคต เราจะตั้งตารอที่จะมีความก้าวหน้าที่คล้ายกันมากขึ้นเพื่อส่งเสริมการพัฒนาเทคโนโลยีปัญญาประดิษฐ์อย่างต่อเนื่องและ เป็นประโยชน์ต่อสังคมมนุษย์