SciKnowEval下载SciKnowEval源代码下载

SciKnowEval

Ai源码

1.0.0

下载

Sciknoweval：评估大语言模型的多层次科学知识

纸•网站•？数据集•⌚️概述•？快速启动•？排行榜•引用

博学之，审问之，慎思之，明辨之，笃行之。，笃行之。

- 《礼记·中庸》

大型语言模型（LLMS）的Sci Intifific知识评估（ Sciknoweval ）的基准灵感来自中国古代哲学的“平均学说”中概述的深刻原则。该基准旨在根据其在广泛研究，认真的询问，深刻思考，清晰辨别和顽强地练习的熟练程度上评估LLMS。这些维度中的每一个都为评估LLM在处理科学知识的能力方面提供了独特的观点。

？消息

[2024年9月]我们发布了Sciknoweval的OpenAI O1的评估报告。
[2024年9月]我们已更新了Arxiv中的Sciknoweval纸。
[2024年7月]我们最近将物理和材料添加到Sciknoweval中。您可以在此处访问数据集并在此处查看排行榜。
[2024年6月]我们发布了Sciknoweval数据集和生物学和化学的排行榜。

？目录

⌚️概述
？ Quickstart
- 安装
- 准备数据
- ？准备模型
- 评价
？排行榜
引用
致谢

⌚️概述

✡️评估能力

L1 ：广泛研究（即知识记忆）。这个维度评估了LLM在各个科学领域的知识的广度。它衡量了该模型记忆广泛的科学概念的能力。
❓l2 ：认真询问（即知识理解）。这一方面的重点是LLM在科学环境中进行深入询问和探索的能力，例如分析科学文本，识别关键概念和质疑相关信息。
L3 ：深刻思考（即知识推理）。该标准检查了模型的批判性思维能力，逻辑推论，数值计算，功能预测以及参与反思性推理解决问题的能力。
？ L4 ：清楚地辨别（即知识辨别）。这方面评估了LLM基于科学知识做出正确，安全和道德决定的能力，包括评估信息的有害性和毒性，以及了解与科学努力有关的道德含义和安全问题。
？ L5 ：刻苦练习（即知识应用）。最终维度评估了LLM在现实世界中有效应用科学知识的能力，例如分析复杂的科学问题并创建创新的解决方案。

域和任务

数据统计

数据构建

？ Quickstart

步骤1：安装

要评估Sciknoweval上的LLM，请首先克隆存储库：

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

接下来，设置一个康达环境来管理依赖关系：

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

然后，安装所需的依赖项：

pip install -r requirements.txt

步骤2：准备数据

Sciknoweval基准开始

下载Sciknoweval基准测试数据：要开始使用Sciknoweval基准评估语言模型，您应该首先下载我们的数据集。有两个可用来源：
- ？ HuggingFace DataSet Hub ：直接从我们的HuggingFace页面访问和下载数据集：https：//huggingface.co/datasets/hicai-zju/sciknoweval
- 存储库数据文件夹：该数据集由该存储库的./raw_data/文件夹中的级别（L1〜L5）和任务组织。您可以单独下载零件，并根据需要将它们合并到一个JSON文件中。
准备模型的预测：利用本存储库中提供的官方评估脚本eval.py来评估您的模型。您需要按以下JSON格式准备模型的预测，其中每个条目必须保留数据，例如问题，选择，选择，类型，域，域，级别，任务和子任务的所有原始属性（可以在您下载的数据集中找到）。在“响应”字段中添加模型的预测答案。

示例JSON格式用于模型评估：

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

钥匙要记住

保留所有原始字段：确保每个JSON对象保留所有原始数据字段，以保持评估的完整性。
模型预测：将模型的预测放在每个JSON对象的“响应”字段中。

通过遵循这些准则，您可以有效地使用Sciknoweval基准测试来评估各种科学任务和级别的语言模型的性能。

？步骤3：准备模型

1。对于关系提取任务，我们需要计算与word2vec模型的文本相似性。我们使用googlenews-vector概述的模型作为默认模型。

从此链接下载到GoogleNews-vectors-negative300.bin.gz 。

关系提取评估代码最初是由AI4S杯团队制定的，感谢他们的出色工作！

2。对于使用GPT进行评分的任务，我们使用OpenAI API评估答案。

请在OpenAI_API_KEY环境变量中设置OpenAI API密钥。使用export OPENAI_API_KEY="YOUR_API_KEY"来设置环境变量。
如果未设置OPENAI_API_KEY环境变量，评估将自动跳过需要GPT评分的任务。
我们选择gpt-4o作为默认评估器！

步骤4：评估

您可以运行eval.py来评估您的模型：

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

？排行榜

最新的排行榜在此处显示。

引用

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}