Pada ujian masuk perguruan tinggi tahun 2024, sembilan model AI besar berpartisipasi dalam tantangan yang belum pernah terjadi sebelumnya dalam mengikuti ujian masuk perguruan tinggi, terutama ujian Henan yang sangat sulit. Tes yang diselenggarakan oleh media ini bertujuan untuk mengevaluasi kemampuan aktual AI di bidang akademik dan memberikan data berharga untuk pemahaman kita tentang perbedaan antara AI dan kecerdasan manusia. Hasil pengujian ini sangat menarik perhatian. Hasil dari beberapa model AI bahkan melebihi hasil lini pertama, sehingga menarik perhatian luas dan diskusi hangat, serta memberikan pemikiran baru untuk arah pengembangan teknologi AI di masa depan.
Di antara sembilan AI yang mengikuti tes, skor empat AI melebihi baris pertama Ujian Masuk Perguruan Tinggi Henan. GPT-4o memenangkan tempat pertama dengan skor tinggi 562 poin, melampaui baris pertama dengan 41 poin, sementara Doubao dari ByteDance mengikutinya dengan 542,5 poin, menjadi yang terbaik di antara model domestik.

AI berkinerja baik dalam mata pelajaran seni liberal, khususnya mata pelajaran bahasa Mandarin dan Inggris, namun tidak sebaik dalam mata pelajaran sains, khususnya matematika. Terlihat bahwa AI telah menunjukkan keunggulan nyata dalam mata pelajaran bahasa, dan kemampuannya dalam memahami puisi kuno sangat mengesankan.

Kinerja AI pada pertanyaan-pertanyaan penalaran sederhana dapat diterima, namun kinerjanya pada pertanyaan-pertanyaan yang memerlukan derivasi dan pembuktian yang kompleks buruk, menunjukkan bahwa kemampuan logisnya perlu ditingkatkan. Pada mata pelajaran komprehensif seni liberal, mata pelajaran geografi mempunyai prestasi paling buruk, sedangkan pada mata pelajaran sains komprehensif, mata pelajaran biologi mempunyai prestasi yang relatif baik. GPT-4o tampil luar biasa dalam mata pelajaran politik dengan skor tinggi 91,5 poin.
Metode pengujian dan standar penilaian
Putaran tes: Untuk mengurangi dampak keacakan, semua subjek diuji selama dua putaran, dan skor rata-rata diambil sebagai skor akhir.
Format masukan: Rumus dimasukkan dalam format Markdown/LaTeX. Untuk pertanyaan gambar, gambar dan teks yang sesuai dimasukkan sesuai dengan kemampuan pengenalan model.
Operasi pengujian: Penyedia layanan data AI profesional melakukan tangkapan layar pengujian terpadu dan terstandarisasi untuk memastikan keadilan pengujian.
Metode penilaian: Standar penilaian yang sama digunakan pada kandidat manusia untuk memastikan keadilan dalam penilaian.
Upaya AI untuk mengikuti ujian masuk perguruan tinggi ini tidak hanya menunjukkan keunggulan AI di bidang tertentu, tetapi juga mengungkap kekurangannya dalam penalaran logis dan pembuktian matematis. Seperti yang dikutip oleh salah satu kandidat AI dalam esainya: "Jalannya panjang dan panjang, dan saya akan mencari ke atas dan ke bawah." Ini bukan hanya gambaran perkembangan AI, tetapi juga gambaran jelas tentang eksplorasi berkelanjutan yang dilakukan manusia dunia yang tidak dikenal. Melalui pengujian ini, kami memiliki pemahaman yang lebih mendalam tentang tingkat kecerdasan AI, dan juga memberikan referensi berharga untuk arah pengembangan AI di masa depan.
Daftar kandidatnya mencakup produk AI ternama seperti GPT-4o dari OpenAI, Doubao dari ByteDance, dan Wenxin 4.0 dari Baidu. Performa mereka dalam ujian masuk perguruan tinggi ini tentunya akan berdampak besar pada perkembangan teknologi AI.
Eksperimen ujian masuk perguruan tinggi AI ini memberi kita wawasan mendalam tentang status saat ini dan arah pengembangan kecerdasan buatan di masa depan, dan juga menyoroti tantangan yang masih kita hadapi dalam mengejar kecerdasan buatan secara umum. Saya percaya bahwa di masa depan, AI akan menunjukkan potensinya di lebih banyak bidang dan membawa kemajuan yang lebih besar bagi masyarakat manusia.