Baru-baru ini, Universitas Stanford merilis hasil terbaru dari daftar evaluasi model besar HELM MMLU, yang telah menarik perhatian luas di industri. Dengan standar evaluasi yang ketat dan proses evaluasi yang transparan, daftar ini memberikan referensi yang dapat diandalkan untuk evaluasi kinerja model besar. Hasil dari daftar tersebut menunjukkan bahwa model Tongyi Qianwen Qwen2-72B milik Alibaba menonjol di antara banyak model dan telah mencapai hasil yang mengesankan, menunjukkan kemajuan signifikan dari teknologi model besar Tiongkok.
Baru-baru ini, daftar evaluasi model besar Universitas Stanford HELM MMLU merilis hasil terbaru. Percy Liang, direktur Pusat Penelitian Model Dasar di Universitas Stanford, menerbitkan sebuah artikel yang menunjukkan bahwa model Tongyi Qianwen Qwen2-72B milik Alibaba melampaui peringkat Llama3-70B dan menjadi model besar sumber terbuka dengan kinerja terbaik. MMLU (Massive Multitask Language Understanding) adalah salah satu tolok ukur evaluasi model besar yang paling berpengaruh di industri. Ini mencakup 57 tugas termasuk matematika dasar, ilmu komputer, hukum, sejarah, dll., dan dirancang untuk menguji pengetahuan dunia dan kemampuan pemecahan masalah dalam model besar. Namun, dalam evaluasi aktual, hasil dari model yang berbeda sering kali kurang konsisten dan tidak dapat dibandingkan. Hal ini terutama disebabkan oleh penggunaan teknologi kata cepat yang tidak standar dan kegagalan untuk mengadopsi kerangka evaluasi sumber terbuka secara seragam.

Kinerja luar biasa dari Qwen2-72B tidak hanya mencerminkan kekuatan teknis Alibaba yang kuat di bidang AI, namun juga memberikan dorongan yang kuat ke dalam pengembangan model-model besar di Tiongkok. Saya percaya bahwa di masa depan, lebih banyak model besar Tiongkok yang akan menunjukkan kekuatan luar biasa mereka di panggung internasional.