Unduh SciKnowEval - Unduh Kode Sumber SciKnowEval

SciKnowEval

Kode Sumber AI

1.0.0

Unduh

ScikNoweval: Mengevaluasi Pengetahuan Ilmiah Multi-Level tentang Model Bahasa Besar

Kertas • Situs web •? Dataset • ⌚️ Ikhtisar •? QuickStart •? Papan peringkat • mengutip

博学之，审问之，慎思之，明辨之，笃行之。

—— 《礼记 · 中庸》 doktrin rata -rata

Benchmark evaluasi ledge yang tahu sci ( sciknoweval ) untuk model bahasa besar (LLM) terinspirasi oleh prinsip -prinsip mendalam yang diuraikan dalam " doktrin rata -rata " dari filsafat Cina kuno. Benchmark ini dirancang untuk menilai LLMS berdasarkan kecakapan mereka dalam mempelajari secara luas , menanyakan dengan sungguh -sungguh , berpikir secara mendalam , jelas -jelas jelas , dan berlatih dengan tekun . Masing -masing dimensi ini menawarkan perspektif unik dalam mengevaluasi kemampuan LLM dalam menangani pengetahuan ilmiah.

? Berita

[Sep 2024] Kami merilis laporan evaluasi OpenAI O1 dengan Sciknoweval.
[Sep 2024] Kami telah memperbarui makalah ScikNoweval di Arxiv.
[Jul 2024] Kami baru -baru ini menambahkan fisika dan bahan ke Sciknoweval. Anda dapat mengakses dataset di sini dan memeriksa papan peringkat di sini.
[Juni 2024] Kami merilis SCIKWOWNVAL Dataset dan Leaderboard untuk Biologi dan Kimia.

? Daftar isi

⌚️ Ikhtisar
? QuickStart
- Instalasi
- Menyiapkan data
- ? Siapkan model
- Mengevaluasi
? Papan peringkat
Mengutip
Ucapan Terima Kasih

⌚️ Ikhtisar

✡️ kemampuan yang dievaluasi

L1 : Belajar secara luas (yaitu, memori pengetahuan ). Dimensi ini mengevaluasi luasnya pengetahuan LLM di berbagai domain ilmiah. Ini mengukur kemampuan model untuk mengingat berbagai konsep ilmiah.
❓ L2 : Menanyakan dengan sungguh -sungguh (yaitu, pemahaman pengetahuan ). Aspek ini berfokus pada kapasitas LLM untuk penyelidikan dan eksplorasi yang mendalam dalam konteks ilmiah, seperti menganalisis teks ilmiah, mengidentifikasi konsep -konsep utama, dan mempertanyakan informasi yang relevan.
L3 : Berpikir mendalam (yaitu, penalaran pengetahuan ). Kriteria ini meneliti kapasitas model untuk pemikiran kritis, pengurangan logis, perhitungan numerik, prediksi fungsi, dan kemampuan untuk terlibat dalam penalaran reflektif untuk menyelesaikan masalah.
? L4 : Membedakan dengan jelas (yaitu, kebijaksanaan pengetahuan ). Aspek ini mengevaluasi kemampuan LLM untuk membuat keputusan yang benar, aman, dan etis berdasarkan pengetahuan ilmiah, termasuk menilai kerugian dan toksisitas informasi, dan memahami implikasi etis dan masalah keamanan yang terkait dengan upaya ilmiah.
? L5 : Berlatih dengan tekun (yaitu, aplikasi pengetahuan ). Dimensi akhir menilai kemampuan LLM untuk menerapkan pengetahuan ilmiah secara efektif dalam skenario dunia nyata, seperti menganalisis masalah ilmiah yang kompleks dan menciptakan solusi inovatif.

Domain dan Tugas

Statistik data

Konstruksi Data

? QuickStart

Langkah 1: Instalasi

Untuk mengevaluasi LLMS di Sciknoweval, pertama -tama klon repositori:

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

Selanjutnya, siapkan lingkungan Conda untuk mengelola dependensi:

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

Kemudian, pasang dependensi yang diperlukan:

pip install -r requirements.txt

Langkah 2: Mempersiapkan Data

Memulai Benchmark ScikNoweval

Unduh Data Benchmark ScikNoweval : Untuk mulai mengevaluasi model bahasa menggunakan Benchmark ScikNoweval, Anda harus terlebih dahulu mengunduh dataset kami. Ada dua sumber yang tersedia:
- ? HUB DATASET HUGGINGFACE : Akses dan unduh dataset langsung dari halaman HuggingFace kami: https://huggingface.co/datasets/hicai-zju/sciknoweval
- Folder Data Repositori : Dataset disusun berdasarkan level (l1 ~ l5) dan tugas di dalam folder ./raw_data/ dari repositori ini. Anda dapat mengunduh bagian secara terpisah dan mengkonsolidasikannya ke dalam satu file JSON sesuai kebutuhan.
Persiapkan prediksi model Anda : Manfaatkan skrip evaluasi resmi eval.py yang disediakan dalam repositori ini untuk menilai model Anda. Anda diminta untuk menyiapkan prediksi model Anda dalam format JSON berikut, di mana setiap entri harus melestarikan semua atribut asli (yang dapat ditemukan dalam dataset yang Anda unduh) dari data seperti pertanyaan, pilihan, jawaban, ketik, domain, level, tugas, dan subtask. Tambahkan jawaban yang diprediksi model Anda di bawah bidang "Respons".

Contoh format JSON untuk evaluasi model:

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

❗Key point untuk diingat

Lestarikan semua bidang asli : Pastikan setiap objek JSON mempertahankan semua bidang data asli untuk mempertahankan integritas evaluasi.
Prediksi Model : Tempatkan prediksi model Anda di bidang "respons" dari setiap objek JSON.

Dengan mengikuti pedoman ini, Anda dapat secara efektif menggunakan tolok ukur ScikNoweval untuk mengevaluasi kinerja model bahasa di berbagai tugas dan level ilmiah.

? Langkah 3: Siapkan model

1. Untuk tugas ekstraksi relasi, kita perlu menghitung kesamaan teks dengan model word2vec . Kami menggunakan model pretrained -vektor Googlenews sebagai model default.

Unduh GoogleNews-vectors-negative300.bin.gz dari tautan ini ke lokal.

Kode evaluasi ekstraksi relasi awalnya dikembangkan oleh tim Piala AI4S, terima kasih atas pekerjaan hebat mereka!?

2. Untuk tugas -tugas yang menggunakan GPT untuk penilaian, kami menggunakan OpenAI API untuk menilai jawaban.

Harap atur kunci API openai Anda di variabel lingkungan OpenAI_API_KEY . Gunakan export OPENAI_API_KEY="YOUR_API_KEY" untuk mengatur variabel lingkungan.
Jika Anda tidak mengatur variabel lingkungan OPENAI_API_KEY , evaluasi akan secara otomatis melewatkan tugas yang memerlukan penilaian GPT .
Kami memilih gpt-4o sebagai evaluator default!

Langkah 4: Evaluasi

Anda dapat menjalankan eval.py untuk mengevaluasi model Anda:

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

? Papan peringkat

Papan peringkat terbaru ditampilkan di sini.

Mengutip

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Ucapan Terima Kasih

Terima kasih khusus kepada penulis Llasmol: Memajukan model bahasa besar untuk kimia dengan dataset penyetelan instruksi berskala besar, komprehensif, dan berkualitas tinggi, dan penyelenggara Tantangan AI4S-LLM untuk pekerjaan yang menginspirasi mereka.

Bagian yang mengevaluasi generasi molekuler dalam evaluation/utils/generation.py , serta evaluation/utils/relation_extraction.py , didasarkan pada penelitian mereka. Berterima kasih atas kontribusi mereka yang berharga ☺️ Lai