纸•网站•?数据集•⌚️概述•?快速启动•?排行榜•引用
博学之,审问之,慎思之,明辨之,笃行之。,笃行之。
- 《礼记·中庸》

大型语言模型(LLMS)的Sci Intifific知识评估( Sciknoweval )的基准灵感来自中国古代哲学的“平均学说”中概述的深刻原则。该基准旨在根据其在广泛研究,认真的询问,深刻思考,清晰辨别和顽强地练习的熟练程度上评估LLMS。这些维度中的每一个都为评估LLM在处理科学知识的能力方面提供了独特的观点。
[2024年9月]我们发布了Sciknoweval的OpenAI O1的评估报告。
[2024年9月]我们已更新了Arxiv中的Sciknoweval纸。
[2024年7月]我们最近将物理和材料添加到Sciknoweval中。您可以在此处访问数据集并在此处查看排行榜。
[2024年6月]我们发布了Sciknoweval数据集和生物学和化学的排行榜。
L1 :广泛研究(即知识记忆)。这个维度评估了LLM在各个科学领域的知识的广度。它衡量了该模型记忆广泛的科学概念的能力。
❓l2 :认真询问(即知识理解)。这一方面的重点是LLM在科学环境中进行深入询问和探索的能力,例如分析科学文本,识别关键概念和质疑相关信息。
L3 :深刻思考(即知识推理)。该标准检查了模型的批判性思维能力,逻辑推论,数值计算,功能预测以及参与反思性推理解决问题的能力。
? L4 :清楚地辨别(即知识辨别)。这方面评估了LLM基于科学知识做出正确,安全和道德决定的能力,包括评估信息的有害性和毒性,以及了解与科学努力有关的道德含义和安全问题。
? L5 :刻苦练习(即知识应用)。最终维度评估了LLM在现实世界中有效应用科学知识的能力,例如分析复杂的科学问题并创建创新的解决方案。




要评估Sciknoweval上的LLM,请首先克隆存储库:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval接下来,设置一个康达环境来管理依赖关系:
conda create -n sciknoweval python=3.10.9
conda activate sciknoweval然后,安装所需的依赖项:
pip install -r requirements.txt下载Sciknoweval基准测试数据:要开始使用Sciknoweval基准评估语言模型,您应该首先下载我们的数据集。有两个可用来源:
? HuggingFace DataSet Hub :直接从我们的HuggingFace页面访问和下载数据集:https://huggingface.co/datasets/hicai-zju/sciknoweval
存储库数据文件夹:该数据集由该存储库的./raw_data/文件夹中的级别(L1〜L5)和任务组织。您可以单独下载零件,并根据需要将它们合并到一个JSON文件中。
准备模型的预测:利用本存储库中提供的官方评估脚本eval.py来评估您的模型。您需要按以下JSON格式准备模型的预测,其中每个条目必须保留数据,例如问题,选择,选择,类型,域,域,级别,任务和子任务的所有原始属性(可以在您下载的数据集中找到)。在“响应”字段中添加模型的预测答案。
示例JSON格式用于模型评估:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]通过遵循这些准则,您可以有效地使用Sciknoweval基准测试来评估各种科学任务和级别的语言模型的性能。
1。对于关系提取任务,我们需要计算与word2vec模型的文本相似性。我们使用googlenews-vector概述的模型作为默认模型。
GoogleNews-vectors-negative300.bin.gz 。关系提取评估代码最初是由AI4S杯团队制定的,感谢他们的出色工作!
2。对于使用GPT进行评分的任务,我们使用OpenAI API评估答案。
请在OpenAI_API_KEY环境变量中设置OpenAI API密钥。使用export OPENAI_API_KEY="YOUR_API_KEY"来设置环境变量。
如果未设置OPENAI_API_KEY环境变量,评估将自动跳过需要GPT评分的任务。
我们选择gpt-4o作为默认评估器!
您可以运行eval.py来评估您的模型:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path 最新的排行榜在此处显示。
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
特别感谢Llasmol的作者:通过大规模,全面,高质量的教学调谐数据集和AI4S Cup-LLM挑战的组织者进行大规模,全面,高质量的教学调谐数据集,以推进化学大型语言模型。
evaluation/utils/generation.py以及evaluation/utils/relation_extraction.py中评估分子产生的部分是基于他们的研究。感谢他们的宝贵贡献