Baru-baru ini, tim Model Besar Bytedance Doubao dan komunitas open source bersama-sama merilis SuperGPQA, sebuah tes benchmark alasan pengetahuan yang mencakup 285 disiplin tingkat pascasarjana dan 26.529 pertanyaan profesional. Kumpulan data inovatif ini tidak hanya mencakup disiplin ilmu utama seperti matematika dan fisika, tetapi juga mencakup disiplin ilmu panjang seperti industri ringan, pertanian, dan ilmu layanan ke dalam sistem evaluasi untuk pertama kalinya, mengisi kesenjangan dalam tes benchmark yang ada di bidang pengetahuan ekor panjang.
Peluncuran SuperGPQA menandai tonggak penting di bidang AI. Dataset ini dibangun dalam setengah tahun melalui mekanisme kolaborasi ahli-LLM untuk menyaring masalah dari sumber otoritatif. Pertanyaannya memberikan rata -rata 9,67 opsi, dan 42,33% dari mereka memerlukan perhitungan matematika atau penalaran formal, baik luas maupun kedalaman. Eksperimen menunjukkan bahwa keakuratan model optimal Deepseek-R1 hanya 61,82%, menunjukkan bahwa model bahasa besar saat ini masih memiliki ruang untuk perbaikan di bidang pengetahuan yang beragam.
Tolok ukur tradisional seperti MMLU dan GPQA mencakup kurang dari 50 disiplin ilmu, sedangkan disiplin ekor panjang menyumbang kurang dari 5%. Karena sumber data tunggal (seperti Wikipedia) dan anotasi crowdsourcing yang tidak dapat diandalkan, sulit untuk mengukur kemampuan inferensi model dalam skenario yang kompleks. SuperGPQA meningkatkan kualitas melalui proses tiga tahap: penyaringan ahli masalah asli, transkripsi standar, inspeksi kualitas multi-lapisan (penyaringan aturan, pengujian LLM, tinjauan ahli). Hasil evaluasi menunjukkan bahwa penyempurnaan instruksi secara signifikan meningkatkan kinerja, seperti skor Deepseek-V3 melebihi versi dasar, tetapi model open source masih tertinggal di balik solusi sumber tertutup dalam masalah sulit.
SuperGPQA telah digunakan untuk mengungkapkan kesenjangan kinerja antara open source dan model sumber tertutup dan telah menjadi alat penting untuk pengembangan AI. Rilis tes benchmark ini tidak hanya memberikan standar evaluasi baru untuk penelitian AI, tetapi juga menunjukkan arah untuk optimasi model di masa depan dan peningkatan kemampuan penalaran pengetahuan.
Tautan kertas: https://arxiv.org/pdf/2502.14739
Tautan data: https://huggingface.co/datasets/map/supergpqa
Tautan kode: https://github.com/supergpqa/supergpqa