เมื่อเร็วๆ นี้ มหาวิทยาลัยสแตนฟอร์ดได้เผยแพร่ผลการประเมินแบบจำลองขนาดใหญ่ของ HELM MMLU ซึ่งได้รับความสนใจอย่างกว้างขวางในอุตสาหกรรม ด้วยมาตรฐานการประเมินที่เข้มงวดและกระบวนการประเมินที่โปร่งใส รายการนี้จึงเป็นข้อมูลอ้างอิงที่เชื่อถือได้สำหรับการประเมินประสิทธิภาพของโมเดลขนาดใหญ่ ผลการจัดอันดับแสดงให้เห็นว่าโมเดล Tongyi Qianwen Qwen2-72B ของอาลีบาบามีความโดดเด่นในบรรดารุ่นต่างๆ มากมาย และประสบความสำเร็จอย่างน่าประทับใจ ซึ่งแสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญของเทคโนโลยีโมเดลขนาดใหญ่ของจีน
เมื่อเร็วๆ นี้ รายการประเมินแบบจำลองขนาดใหญ่ของมหาวิทยาลัยสแตนฟอร์ด HELM MMLU ได้เปิดเผยผลลัพธ์ล่าสุด Percy Liang ผู้อำนวยการศูนย์วิจัยโมเดลพื้นฐานที่มหาวิทยาลัยสแตนฟอร์ด ตีพิมพ์บทความที่ชี้ให้เห็นว่าโมเดล Tongyi Qianwen Qwen2-72B ของอาลีบาบาแซงหน้า Llama3-70B ในการจัดอันดับ และกลายเป็นโมเดลโอเพ่นซอร์สขนาดใหญ่ที่มีประสิทธิภาพดีที่สุด MMLU (ความเข้าใจภาษามัลติทาสก์ขนาดใหญ่) เป็นหนึ่งในเกณฑ์มาตรฐานการประเมินโมเดลขนาดใหญ่ที่มีอิทธิพลมากที่สุดในอุตสาหกรรม โดยครอบคลุมงาน 57 งาน รวมถึงคณิตศาสตร์พื้นฐาน วิทยาการคอมพิวเตอร์ กฎหมาย ประวัติศาสตร์ ฯลฯ และออกแบบมาเพื่อทดสอบความรู้ของโลกและความสามารถในการแก้ปัญหาในแบบจำลองขนาดใหญ่ อย่างไรก็ตาม ในการประเมินจริง ผลลัพธ์ของแบบจำลองต่างๆ มักจะขาดความสอดคล้องและไม่สามารถเปรียบเทียบได้ สาเหตุหลักมาจากการใช้เทคโนโลยี prompt word ที่ไม่ได้มาตรฐาน และความล้มเหลวในการนำกรอบการประเมินโอเพ่นซอร์สมาใช้อย่างเท่าเทียมกัน

ประสิทธิภาพที่โดดเด่นของ Qwen2-72B ไม่เพียงแต่สะท้อนถึงความแข็งแกร่งทางเทคนิคอันแข็งแกร่งของอาลีบาบาในด้าน AI เท่านั้น แต่ยังอัดฉีดแรงผลักดันอันแข็งแกร่งให้กับการพัฒนาโมเดลขนาดใหญ่ในจีนอีกด้วย ฉันเชื่อว่าในอนาคต โมเดลของจีนที่มีขนาดใหญ่มากขึ้นจะแสดงความแข็งแกร่งที่โดดเด่นในเวทีระดับนานาชาติ