Zhiyuan Research Institute dan Tencent bersama-sama merilis LongBench v2, sebuah platform pengujian benchmark untuk mengevaluasi pemahaman teks panjang dan kemampuan penalaran model bahasa besar (LLM). LongBench v2 secara signifikan meningkatkan panjang teks dan kesulitan penilaian, termasuk 503 pertanyaan pilihan ganda empat pilihan yang menantang, yang menyulitkan bahkan pakar manusia untuk mendapatkan akurasi tinggi dalam waktu singkat. Tolok ukur ini mencakup enam kategori tugas utama dan mencakup perbaikan metodologi evaluasi untuk meningkatkan keandalan dan keakuratan hasil. Langkah ini bertujuan untuk mendorong kemajuan model bahasa besar dalam pemrosesan teks panjang dan menyediakan alat evaluasi yang lebih efektif untuk penelitian terkait.
Pada konferensi pers pada 19 Desember 2024, Zhiyuan Research Institute dan Tencent mengumumkan peluncuran LongBench v2, yang dirancang untuk mengevaluasi pemahaman mendalam dan kemampuan penalaran model bahasa besar (LLM) dalam multi-tugas teks panjang di dunia nyata. Tolok ukur yang dirancang. Platform ini bertujuan untuk mendorong kemajuan model teks panjang dalam pemahaman dan penalaran, serta menanggapi tantangan saat ini dalam penerapan model teks panjang dan bahasa besar.
Fitur penting dari LongBench v2 termasuk dukungan untuk panjang teks yang lebih panjang, mulai dari 8 ribu hingga 2 juta kata, dan berisi 503 pertanyaan pilihan ganda empat pilihan yang menantang dengan tingkat kesulitan yang lebih tinggi, bahkan akurasi rata-rata pakar manusia dalam 15 menit Angkanya hanya 53,7% . Selain itu, tolok ukur ini mencakup enam kategori tugas utama, termasuk Tanya Jawab satu dokumen, Tanya Jawab multi-dokumen, pembelajaran konteks teks panjang, dll., yang memastikan beragam skenario aplikasi.

Untuk memastikan keandalan penilaian, semua pertanyaan di LongBench v2 berbentuk pertanyaan pilihan ganda dan menjalani proses penilaian dan peninjauan manual yang ketat. Selama proses pengumpulan data, anotator dari universitas ternama direkrut untuk memastikan kualitas dan kesulitan soal. Dengan memperkenalkan variabel kontrol, LongBench v2 menyempurnakan algoritme statistik Bradley-Terry asli, mengurangi dampak faktor perancu, dan menjadikan pemeringkatan model lebih ilmiah dan akurat.
Dalam hal hasil evaluasi, tim peneliti menguji 10 LLM sumber terbuka dan 6 LLM sumber tertutup dan menemukan bahwa kinerja model meningkat secara signifikan setelah memperkenalkan variabel kontrol. Secara khusus, model GPT-4o berkinerja baik pada tugas-tugas seperti menjawab pertanyaan multi-dokumen dan pembelajaran konteks teks panjang setelah memperkenalkan lebih banyak langkah penalaran, yang menunjukkan pentingnya kemampuan penalaran.
Peluncuran LongBench v2 tidak hanya menyediakan alat baru untuk mengevaluasi model bahasa besar, namun juga menunjukkan arah untuk penelitian di masa depan, menekankan pentingnya meningkatkan pemahaman dan kemampuan penalaran model itu sendiri. Kerja sama antara Zhiyuan Research Institute dan Tencent menandai perkembangan lebih lanjut di bidang teknologi AI. Tes benchmark ini diharapkan dapat mendorong kemajuan teknologi pemahaman dan penalaran teks panjang.
Halaman beranda: https://longbench2.github.io
Makalah: https://arxiv.org/abs/2412.15204
Data dan kode: https://github.com/THUDM/LongBench
Peluncuran LongBench v2 menandai tahap baru dalam evaluasi model bahasa besar. Standar evaluasi yang lebih ketat dan konten pengujian yang lebih komprehensif akan membantu mendorong peningkatan berkelanjutan model bahasa besar dalam kemampuan pemahaman dan penalaran teks panjang. Kami menantikan lebih banyak hasil penelitian berdasarkan LongBench v2 yang muncul di masa depan untuk lebih mendorong pengembangan teknologi AI.