Kertas • Situs web •? Dataset • ⌚️ Ikhtisar •? QuickStart •? Papan peringkat • mengutip
博学之 , 审问之 , 慎思之 , 明辨之 , 笃行之。
—— 《礼记 · 中庸》 doktrin rata -rata

Benchmark evaluasi ledge yang tahu sci ( sciknoweval ) untuk model bahasa besar (LLM) terinspirasi oleh prinsip -prinsip mendalam yang diuraikan dalam " doktrin rata -rata " dari filsafat Cina kuno. Benchmark ini dirancang untuk menilai LLMS berdasarkan kecakapan mereka dalam mempelajari secara luas , menanyakan dengan sungguh -sungguh , berpikir secara mendalam , jelas -jelas jelas , dan berlatih dengan tekun . Masing -masing dimensi ini menawarkan perspektif unik dalam mengevaluasi kemampuan LLM dalam menangani pengetahuan ilmiah.
[Sep 2024] Kami merilis laporan evaluasi OpenAI O1 dengan Sciknoweval.
[Sep 2024] Kami telah memperbarui makalah ScikNoweval di Arxiv.
[Jul 2024] Kami baru -baru ini menambahkan fisika dan bahan ke Sciknoweval. Anda dapat mengakses dataset di sini dan memeriksa papan peringkat di sini.
[Juni 2024] Kami merilis SCIKWOWNVAL Dataset dan Leaderboard untuk Biologi dan Kimia.
L1 : Belajar secara luas (yaitu, memori pengetahuan ). Dimensi ini mengevaluasi luasnya pengetahuan LLM di berbagai domain ilmiah. Ini mengukur kemampuan model untuk mengingat berbagai konsep ilmiah.
❓ L2 : Menanyakan dengan sungguh -sungguh (yaitu, pemahaman pengetahuan ). Aspek ini berfokus pada kapasitas LLM untuk penyelidikan dan eksplorasi yang mendalam dalam konteks ilmiah, seperti menganalisis teks ilmiah, mengidentifikasi konsep -konsep utama, dan mempertanyakan informasi yang relevan.
L3 : Berpikir mendalam (yaitu, penalaran pengetahuan ). Kriteria ini meneliti kapasitas model untuk pemikiran kritis, pengurangan logis, perhitungan numerik, prediksi fungsi, dan kemampuan untuk terlibat dalam penalaran reflektif untuk menyelesaikan masalah.
? L4 : Membedakan dengan jelas (yaitu, kebijaksanaan pengetahuan ). Aspek ini mengevaluasi kemampuan LLM untuk membuat keputusan yang benar, aman, dan etis berdasarkan pengetahuan ilmiah, termasuk menilai kerugian dan toksisitas informasi, dan memahami implikasi etis dan masalah keamanan yang terkait dengan upaya ilmiah.
? L5 : Berlatih dengan tekun (yaitu, aplikasi pengetahuan ). Dimensi akhir menilai kemampuan LLM untuk menerapkan pengetahuan ilmiah secara efektif dalam skenario dunia nyata, seperti menganalisis masalah ilmiah yang kompleks dan menciptakan solusi inovatif.




Untuk mengevaluasi LLMS di Sciknoweval, pertama -tama klon repositori:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEvalSelanjutnya, siapkan lingkungan Conda untuk mengelola dependensi:
conda create -n sciknoweval python=3.10.9
conda activate sciknowevalKemudian, pasang dependensi yang diperlukan:
pip install -r requirements.txtUnduh Data Benchmark ScikNoweval : Untuk mulai mengevaluasi model bahasa menggunakan Benchmark ScikNoweval, Anda harus terlebih dahulu mengunduh dataset kami. Ada dua sumber yang tersedia:
? HUB DATASET HUGGINGFACE : Akses dan unduh dataset langsung dari halaman HuggingFace kami: https://huggingface.co/datasets/hicai-zju/sciknoweval
Folder Data Repositori : Dataset disusun berdasarkan level (l1 ~ l5) dan tugas di dalam folder ./raw_data/ dari repositori ini. Anda dapat mengunduh bagian secara terpisah dan mengkonsolidasikannya ke dalam satu file JSON sesuai kebutuhan.
Persiapkan prediksi model Anda : Manfaatkan skrip evaluasi resmi eval.py yang disediakan dalam repositori ini untuk menilai model Anda. Anda diminta untuk menyiapkan prediksi model Anda dalam format JSON berikut, di mana setiap entri harus melestarikan semua atribut asli (yang dapat ditemukan dalam dataset yang Anda unduh) dari data seperti pertanyaan, pilihan, jawaban, ketik, domain, level, tugas, dan subtask. Tambahkan jawaban yang diprediksi model Anda di bawah bidang "Respons".
Contoh format JSON untuk evaluasi model:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]Dengan mengikuti pedoman ini, Anda dapat secara efektif menggunakan tolok ukur ScikNoweval untuk mengevaluasi kinerja model bahasa di berbagai tugas dan level ilmiah.
1. Untuk tugas ekstraksi relasi, kita perlu menghitung kesamaan teks dengan model word2vec . Kami menggunakan model pretrained -vektor Googlenews sebagai model default.
GoogleNews-vectors-negative300.bin.gz dari tautan ini ke lokal.Kode evaluasi ekstraksi relasi awalnya dikembangkan oleh tim Piala AI4S, terima kasih atas pekerjaan hebat mereka!?
2. Untuk tugas -tugas yang menggunakan GPT untuk penilaian, kami menggunakan OpenAI API untuk menilai jawaban.
Harap atur kunci API openai Anda di variabel lingkungan OpenAI_API_KEY . Gunakan export OPENAI_API_KEY="YOUR_API_KEY" untuk mengatur variabel lingkungan.
Jika Anda tidak mengatur variabel lingkungan OPENAI_API_KEY , evaluasi akan secara otomatis melewatkan tugas yang memerlukan penilaian GPT .
Kami memilih gpt-4o sebagai evaluator default!
Anda dapat menjalankan eval.py untuk mengevaluasi model Anda:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path Papan peringkat terbaru ditampilkan di sini.
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Terima kasih khusus kepada penulis Llasmol: Memajukan model bahasa besar untuk kimia dengan dataset penyetelan instruksi berskala besar, komprehensif, dan berkualitas tinggi, dan penyelenggara Tantangan AI4S-LLM untuk pekerjaan yang menginspirasi mereka.
Bagian yang mengevaluasi generasi molekuler dalam evaluation/utils/generation.py , serta evaluation/utils/relation_extraction.py , didasarkan pada penelitian mereka. Berterima kasih atas kontribusi mereka yang berharga