Laboratorium Kecerdasan Buatan Shanghai baru-baru ini mengadakan "Ujian Masuk Perguruan Tinggi" yang unik, Tujuh model AI, termasuk GPT-4o, menjalani tes komprehensif dalam bahasa Mandarin, matematika, dan Inggris, menggunakan kertas standar kurikulum nasional I dan pendekatan penilaian manual untuk memastikan keadilan dan ketidakberpihakan tes. Tes ini bertujuan untuk mengevaluasi kemampuan model AI dalam menangani soal-soal ujian masuk perguruan tinggi dan memberikan data referensi untuk pengembangan teknologi AI di masa depan. Model-model yang berpartisipasi dalam pengujian ini mencakup banyak institusi ternama di dalam dan luar negeri, menunjukkan berbagai arah dan tingkat perkembangan teknologi AI saat ini.
Dalam dunia kecerdasan buatan, ujian masuk perguruan tinggi bukan lagi sekedar tahapan bagi manusia. Baru-baru ini, Laboratorium Kecerdasan Buatan Shanghai menggunakan "Ujian Masuk Perguruan Tinggi" yang unik agar kita dapat menyaksikan kekuatan akademis AI. Mereka mengadopsi sistem evaluasi OpenCompass dan menerapkan tujuh model AI, termasuk GPT-4o, untuk menjalani tes kemahiran komprehensif dalam bahasa Mandarin, matematika, dan Inggris.

Tes ini menggunakan Kertas I dari standar kurikulum nasional yang baru, yang memastikan bahwa semua model sumber terbuka yang berpartisipasi adalah sumber terbuka sebelum ujian masuk perguruan tinggi, sehingga memastikan keadilan tes. Selain itu, "kertas jawaban" AI ini dinilai secara manual oleh para guru yang berpengalaman dalam penilaian ujian masuk perguruan tinggi, dan berusaha mendekati standar penilaian yang sebenarnya.
Model yang berpartisipasi dalam evaluasi berasal dari latar belakang yang berbeda, termasuk model dialog Mixtral8x22B sumber terbuka dari startup AI Perancis Mistral, Yi-1.5-34B dari Zero One Thousand Things Company, GLM-4-9B dari Zhipu AI, dan InternLM2 dari Laboratorium Kecerdasan Buatan Shanghai. -20B-WQX, dan seri Qwen2 Alibaba. GPT-4o berpartisipasi dalam evaluasi sebagai model sumber tertutup dan hanya untuk referensi.

Hasilnya diumumkan. Qwen2-72B menduduki peringkat pertama dengan total skor 303 poin, disusul GPT-4o dengan 296 poin, dan InternLM2-20B-WQX di peringkat ketiga dengan 295,5 poin. Model-model ini berkinerja baik dalam mata pelajaran bahasa Mandarin dan Inggris, dengan skor rata-rata 67% dalam bahasa Mandarin dan 81% dalam bahasa Inggris. Namun pada mata pelajaran matematika, rata-rata skor seluruh model hanya sebesar 36%, menunjukkan bahwa AI masih memiliki banyak ruang untuk perbaikan dalam penalaran matematika.
Guru penilaian melakukan analisis komprehensif terhadap lembar jawaban model AI. Dalam mata pelajaran bahasa Mandarin, model umumnya pandai membaca dan memahami teks modern, namun mereka sedikit kurang dalam bahasa Mandarin klasik dan komposisi. Dari segi matematika, meskipun model memiliki kemampuan memori rumus yang kuat, namun penerapannya yang fleksibel dalam proses pemecahan masalah masih kurang. Performa mata pelajaran bahasa Inggris secara keseluruhan bagus, namun pada jenis pertanyaan tertentu, beberapa model memiliki tingkat penilaian yang lebih rendah.
"Ujian masuk perguruan tinggi model besar" ini tidak hanya memungkinkan kita melihat potensi AI di bidang akademik, tetapi juga mengungkap keterbatasannya dalam memahami dan menerapkan pengetahuan. Seiring dengan kemajuan teknologi, kami memiliki alasan untuk percaya bahwa AI di masa depan akan menjadi lebih cerdas dan memberikan pelayanan yang lebih baik kepada masyarakat.
Melalui "ujian masuk perguruan tinggi" AI ini, kita dapat melihat dengan jelas kemajuan dan kekurangan teknologi AI, yang memberikan pengalaman berharga untuk pengembangan AI di masa depan dan perspektif baru untuk pemahaman kita tentang kecerdasan buatan. Di masa depan, AI diyakini akan menunjukkan kemampuan yang lebih canggih di lebih banyak bidang.