紙•網站•?數據集•⌚️概述•?快速啟動•?排行榜•引用
博學之,審問之,慎思之,明辨之,篤行之。 ,篤行之。
- 《禮記·中庸》

大型語言模型(LLMS)的Sci Intifific知識評估( Sciknoweval )的基準靈感來自中國古代哲學的“平均學說”中概述的深刻原則。該基準旨在根據其在廣泛研究,認真的詢問,深刻思考,清晰辨別和頑強地練習的熟練程度上評估LLMS。這些維度中的每一個都為評估LLM在處理科學知識的能力方面提供了獨特的觀點。
[2024年9月]我們發布了Sciknoweval的OpenAI O1的評估報告。
[2024年9月]我們已更新了Arxiv中的Sciknoweval紙。
[2024年7月]我們最近將物理和材料添加到Sciknoweval中。您可以在此處訪問數據集並在此處查看排行榜。
[2024年6月]我們發布了Sciknoweval數據集和生物學和化學的排行榜。
L1 :廣泛研究(即知識記憶)。這個維度評估了LLM在各個科學領域的知識的廣度。它衡量了該模型記憶廣泛的科學概念的能力。
❓l2 :認真詢問(即知識理解)。這一方面的重點是LLM在科學環境中進行深入詢問和探索的能力,例如分析科學文本,識別關鍵概念和質疑相關信息。
L3 :深刻思考(即知識推理)。該標準檢查了模型的批判性思維能力,邏輯推論,數值計算,功能預測以及參與反思性推理解決問題的能力。
? L4 :清楚地辨別(即知識辨別)。這方面評估了LLM基於科學知識做出正確,安全和道德決定的能力,包括評估信息的有害性和毒性,以及了解與科學努力有關的道德含義和安全問題。
? L5 :刻苦練習(即知識應用)。最終維度評估了LLM在現實世界中有效應用科學知識的能力,例如分析複雜的科學問題並創建創新的解決方案。




要評估Sciknoweval上的LLM,請首先克隆存儲庫:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval接下來,設置一個康達環境來管理依賴關係:
conda create -n sciknoweval python=3.10.9
conda activate sciknoweval然後,安裝所需的依賴項:
pip install -r requirements.txt下載Sciknoweval基準測試數據:要開始使用Sciknoweval基準評估語言模型,您應該首先下載我們的數據集。有兩個可用來源:
? HuggingFace DataSet Hub :直接從我們的HuggingFace頁面訪問和下載數據集:https://huggingface.co/datasets/hicai-zju/sciknoweval
存儲庫數據文件夾:該數據集由該存儲庫的./raw_data/文件夾中的級別(L1〜L5)和任務組織。您可以單獨下載零件,並根據需要將它們合併到一個JSON文件中。
準備模型的預測:利用本存儲庫中提供的官方評估腳本eval.py來評估您的模型。您需要按以下JSON格式準備模型的預測,其中每個條目必須保留數據,例如問題,選擇,選擇,類型,域,域,級別,任務和子任務的所有原始屬性(可以在您下載的數據集中找到)。在“響應”字段中添加模型的預測答案。
示例JSON格式用於模型評估:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]通過遵循這些準則,您可以有效地使用Sciknoweval基準測試來評估各種科學任務和級別的語言模型的性能。
1。對於關係提取任務,我們需要計算與word2vec模型的文本相似性。我們使用googlenews-vector概述的模型作為默認模型。
GoogleNews-vectors-negative300.bin.gz 。關係提取評估代碼最初是由AI4S杯團隊制定的,感謝他們的出色工作!
2。對於使用GPT進行評分的任務,我們使用OpenAI API評估答案。
請在OpenAI_API_KEY環境變量中設置OpenAI API密鑰。使用export OPENAI_API_KEY="YOUR_API_KEY"來設置環境變量。
如果未設置OPENAI_API_KEY環境變量,評估將自動跳過需要GPT評分的任務。
我們選擇gpt-4o作為默認評估器!
您可以運行eval.py來評估您的模型:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path 最新的排行榜在此處顯示。
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
特別感謝Llasmol的作者:通過大規模,全面,高質量的教學調諧數據集和AI4S Cup-LLM挑戰的組織者進行大規模,全面,高質量的教學調諧數據集,以推進化學大型語言模型。
evaluation/utils/generation.py以及evaluation/utils/relation_extraction.py中評估分子產生的部分是基於他們的研究。感謝他們的寶貴貢獻