Baru -baru ini, Vectara merilis sebuah laporan yang disebut "Daftar Halusinasi", membandingkan kinerja halusinasi yang dihasilkan oleh berbagai model bahasa besar (LLM) ketika merangkum dokumen pendek. Peringkat ini menggunakan model penilaian halusinasi Hughes Vectara (HHEM-2.1), yang secara teratur diperbarui untuk mengevaluasi seberapa sering model-model ini memperkenalkan informasi palsu ke dalam ringkasan. Menurut data terbaru, laporan ini menunjukkan indikator utama seperti tingkat halusinasi, tingkat konsistensi faktual, tingkat respons, dan panjang ringkasan rata -rata serangkaian model populer.

Dalam peringkat terbaru, seri Google Gemini2.0 berkinerja baik, terutama Gemini-12-Flash-001, menduduki puncak daftar dengan tingkat halusinasi rendah 0,7%, menunjukkan bahwa itu memperkenalkan sedikit informasi palsu saat memproses dokumen. Selain itu, model Openi-mini-mini-mini-mini-mini-mini-mini-mini-mini diikuti dengan tingkat halusinasi 0,8%, dan berkinerja baik.
Laporan ini juga menunjukkan bahwa meskipun tingkat halusinasi dalam banyak model telah meningkat, sebagian besar tetap pada tingkat rendah, dan tingkat konsistensi faktual untuk beberapa model berada di atas 95%, menunjukkan bahwa mereka relatif kuat dalam memastikan bahwa informasi itu benar. Perlu dicatat bahwa tingkat respons model umumnya tinggi, dengan sebagian besar model mendekati 100%, yang berarti mereka berkinerja baik dalam memahami dan menanggapi pertanyaan.
Selain itu, daftar peringkat juga menyebutkan panjang ringkasan rata -rata model yang berbeda, menunjukkan perbedaan dalam kemampuan model dalam hal konsentrasi informasi. Secara keseluruhan, peringkat ini tidak hanya menyediakan data referensi penting bagi para peneliti dan pengembang, tetapi juga memberikan kenyamanan bagi pengguna biasa untuk memahami kinerja model bahasa besar saat ini.
Pintu masuk peringkat khusus: https://github.com/vectara/hallucination-leaderboard
Poin -Poin Kunci:
Peringkat ilusi terbaru mengevaluasi kinerja berbagai model bahasa besar dalam ringkasan dokumen.
Model seri Gemini Google berkinerja baik, dengan tingkat halusinasi serendah 0,7%.
Tingkat respons model hampir 100%, menunjukkan efisiensinya dalam pemrosesan informasi.