SciKnowEval下載SciKnowEval源代碼下載

SciKnowEval

Ai源碼

1.0.0

下載

Sciknoweval：評估大語言模型的多層次科學知識

紙•網站•？數據集•⌚️概述•？快速啟動•？排行榜•引用

博學之，審問之，慎思之，明辨之，篤行之。，篤行之。

- 《禮記·中庸》

大型語言模型（LLMS）的Sci Intifific知識評估（ Sciknoweval ）的基準靈感來自中國古代哲學的“平均學說”中概述的深刻原則。該基準旨在根據其在廣泛研究，認真的詢問，深刻思考，清晰辨別和頑強地練習的熟練程度上評估LLMS。這些維度中的每一個都為評估LLM在處理科學知識的能力方面提供了獨特的觀點。

？消息

[2024年9月]我們發布了Sciknoweval的OpenAI O1的評估報告。
[2024年9月]我們已更新了Arxiv中的Sciknoweval紙。
[2024年7月]我們最近將物理和材料添加到Sciknoweval中。您可以在此處訪問數據集並在此處查看排行榜。
[2024年6月]我們發布了Sciknoweval數據集和生物學和化學的排行榜。

？目錄

⌚️概述
？ Quickstart
- 安裝
- 準備數據
- ？準備模型
- 評價
？排行榜
引用
致謝

⌚️概述

✡️評估能力

L1 ：廣泛研究（即知識記憶）。這個維度評估了LLM在各個科學領域的知識的廣度。它衡量了該模型記憶廣泛的科學概念的能力。
❓l2 ：認真詢問（即知識理解）。這一方面的重點是LLM在科學環境中進行深入詢問和探索的能力，例如分析科學文本，識別關鍵概念和質疑相關信息。
L3 ：深刻思考（即知識推理）。該標準檢查了模型的批判性思維能力，邏輯推論，數值計算，功能預測以及參與反思性推理解決問題的能力。
？ L4 ：清楚地辨別（即知識辨別）。這方面評估了LLM基於科學知識做出正確，安全和道德決定的能力，包括評估信息的有害性和毒性，以及了解與科學努力有關的道德含義和安全問題。
？ L5 ：刻苦練習（即知識應用）。最終維度評估了LLM在現實世界中有效應用科學知識的能力，例如分析複雜的科學問題並創建創新的解決方案。

域和任務

數據統計

數據構建

？ Quickstart

步驟1：安裝

要評估Sciknoweval上的LLM，請首先克隆存儲庫：

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

接下來，設置一個康達環境來管理依賴關係：

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

然後，安裝所需的依賴項：

pip install -r requirements.txt

步驟2：準備數據

Sciknoweval基准開始

下載Sciknoweval基準測試數據：要開始使用Sciknoweval基準評估語言模型，您應該首先下載我們的數據集。有兩個可用來源：
- ？ HuggingFace DataSet Hub ：直接從我們的HuggingFace頁面訪問和下載數據集：https：//huggingface.co/datasets/hicai-zju/sciknoweval
- 存儲庫數據文件夾：該數據集由該存儲庫的./raw_data/文件夾中的級別（L1〜L5）和任務組織。您可以單獨下載零件，並根據需要將它們合併到一個JSON文件中。
準備模型的預測：利用本存儲庫中提供的官方評估腳本eval.py來評估您的模型。您需要按以下JSON格式準備模型的預測，其中每個條目必須保留數據，例如問題，選擇，選擇，類型，域，域，級別，任務和子任務的所有原始屬性（可以在您下載的數據集中找到）。在“響應”字段中添加模型的預測答案。

示例JSON格式用於模型評估：

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

鑰匙要記住

保留所有原始字段：確保每個JSON對象保留所有原始數據字段，以保持評估的完整性。
模型預測：將模型的預測放在每個JSON對象的“響應”字段中。

通過遵循這些準則，您可以有效地使用Sciknoweval基準測試來評估各種科學任務和級別的語言模型的性能。

？步驟3：準備模型

1。對於關係提取任務，我們需要計算與word2vec模型的文本相似性。我們使用googlenews-vector概述的模型作為默認模型。

從此鏈接下載到GoogleNews-vectors-negative300.bin.gz 。

關係提取評估代碼最初是由AI4S杯團隊制定的，感謝他們的出色工作！

2。對於使用GPT進行評分的任務，我們使用OpenAI API評估答案。

請在OpenAI_API_KEY環境變量中設置OpenAI API密鑰。使用export OPENAI_API_KEY="YOUR_API_KEY"來設置環境變量。
如果未設置OPENAI_API_KEY環境變量，評估將自動跳過需要GPT評分的任務。
我們選擇gpt-4o作為默認評估器！

步驟4：評估

您可以運行eval.py來評估您的模型：

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

？排行榜

最新的排行榜在此處顯示。

引用

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}