종이 • 웹 사이트 •? 데이터 세트 • ⌚️ 개요 •? QuickStart •? 리더 보드 • 인용
博学之 博学之, 审问之 审问之, 慎思之, 明辨之, 笃行之。 笃行之。
—— 평균의 교리

Sci Entific Know Ledge Eval Uation ( Sciknoweval ) 대형 언어 모델 (LLMS) 벤치 마크는 고대 중국 철학의“ 평균 교리 ”에 요약 된 심오한 원칙에서 영감을 받았습니다. 이 벤치 마크는 광범위하게 연구하고 , 진지하게 조사하고 , 심오하게 생각하고 , 분별하고, 분별하고 , 실천하는 능력에 근거하여 LLM을 평가하도록 설계되었습니다. 이러한 각 차원은 과학적 지식을 처리 할 때 LLM의 기능을 평가하는 데있어 고유 한 관점을 제공합니다.
[2024 년 9 월] 우리는 Sciknoweval과 함께 Openai O1의 평가 보고서를 발표했습니다.
[2024 년 9 월] 우리는 Arxiv의 Sciknoweval 논문을 업데이트했습니다.
[Jul 2024] 우리는 최근 Sciknoweval에 물리와 재료를 추가했습니다. 여기에서 데이터 세트에 액세스하고 여기에서 리더 보드를 확인할 수 있습니다.
[2024 년 6 월] 우리는 생물학 및 화학을위한 Sciknoweval 데이터 세트와 리더 보드를 발표했습니다.
L1 : 광범위하게 공부 (예 : 지식 기억 ). 이 차원은 다양한 과학 영역에서 LLM 지식의 폭을 평가합니다. 그것은 광범위한 과학적 개념을 기억하는 모델의 능력을 측정합니다.
l2 : 진지하게 묻습니다 (즉, 지식 이해력 ). 이 측면은 과학적 텍스트 분석, 주요 개념 식별 및 관련 정보에 의문과 같은 과학적 맥락에서 깊은 조사 및 탐사에 대한 LLM의 능력에 중점을 둡니다.
L3 : 심오하게 생각합니다 (즉, 지식 추론 ). 이 기준은 비판적 사고, 논리적 공제, 수치 계산, 기능 예측 및 문제를 해결하기 위해 반사적 추론에 참여할 수있는 모델의 능력을 조사합니다.
? L4 : 분명한 분명한 (즉, 지식 분별력 ). 이러한 측면은 정보의 유해함과 독성 평가, 과학적 노력과 관련된 윤리적 의미 및 안전 문제를 이해하는 등 과학적 지식을 바탕으로 정확하고 안전하며 윤리적 인 결정을 내릴 수있는 LLM의 능력을 평가합니다.
? L5 : 불쾌하게 연습 (즉, 지식 응용 프로그램 ). 최종 차원은 복잡한 과학적 문제 분석 및 혁신적인 솔루션 만들기와 같은 실제 시나리오에서 과학 지식을 효과적으로 적용 할 수있는 LLM의 능력을 평가합니다.




sciknoweval에서 LLM을 평가하려면 먼저 저장소를 복제하십시오.
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval다음으로 의존성을 관리하기 위해 콘다 환경을 설정하십시오.
conda create -n sciknoweval python=3.10.9
conda activate sciknoweval그런 다음 필요한 종속성을 설치하십시오.
pip install -r requirements.txtSciknoweval 벤치 마크 데이터 다운로드 : Sciknoweval 벤치 마크를 사용하여 언어 모델 평가를 시작하려면 먼저 데이터 세트를 다운로드해야합니다. 사용 가능한 두 가지 소스가 있습니다.
? Huggingface Dataset Hub : Huggingface 페이지에서 직접 데이터 세트에 액세스하고 다운로드하십시오. https://huggingface.co/datasets/hicai-zju/sciknoweval
저장소 데이터 폴더 : 데이터 세트는이 저장소의 ./raw_data/ 폴더 내에서 레벨 (l1 ~ l5) 및 작업별로 구성됩니다. 부품을 별도로 다운로드하여 필요에 따라 단일 JSON 파일로 통합 할 수 있습니다.
모델의 예측 준비 :이 저장소에 제공된 공식 평가 스크립트 eval.py 활용하여 모델을 평가하십시오. 다음 JSON 형식으로 모델의 예측을 준비해야합니다. 여기서 각 항목은 질문, 선택, 답장, 유형, 도메인, 레벨, 작업 및 하위 작업과 같은 데이터의 모든 원본 속성 (다운로드 한 데이터 세트에서 찾을 수 있음)을 보존해야합니다. "응답"필드에서 모델의 예측 답변을 추가하십시오.
모델 평가를위한 예제 JSON 형식 :
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]이 지침을 따르면 Sciknoweval 벤치 마크를 효과적으로 사용하여 다양한 과학적 작업 및 수준에서 언어 모델의 성능을 평가할 수 있습니다.
1. 관계 추출 작업의 경우 word2vec 모델로 텍스트 유사성을 계산해야합니다. 우리는 Googlenews-Vectors를 기본 모델로 사전 치료 한 모델을 사용합니다.
GoogleNews-vectors-negative300.bin.gz 다운로드하십시오.관계 추출 평가 코드는 처음에 AI4S 컵 팀이 개발했습니다. 훌륭한 작업에 감사드립니다!?
2. 점수에 GPT를 사용하는 작업의 경우 OpenAI API를 사용하여 답변을 평가합니다.
OpenAI_API_KEY 환경 변수에서 OpenAI API 키를 설정하십시오. export OPENAI_API_KEY="YOUR_API_KEY" 사용하여 환경 변수를 설정하십시오.
OPENAI_API_KEY 환경 변수를 설정하지 않으면 평가는 GPT 점수가 필요한 작업을 자동으로 건너 뜁니다 .
기본 평가자로 gpt-4o 선택합니다!
eval.py 실행하여 모델을 평가할 수 있습니다.
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path 최신 리더 보드가 여기에 표시됩니다.
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Llasmol의 저자 : 대규모 포괄적 인 고품질 교육 튜닝 데이터 세트로 화학을위한 대형 언어 모델을 발전시키는 데 특별한 감사를드립니다.
evaluation/utils/generation.py 에서 분자 생성을 평가하는 섹션과 evaluation/utils/relation_extraction.py 는 연구에 근거합니다. 그들의 귀중한 기여에 감사드립니다