SciKnowEval 다운로드 SciKnowEval 소스 코드 다운로드

SciKnowEval

AI 소스 코드

1.0.0

다운로드

Sciknoweval : 대형 언어 모델에 대한 다단계 과학 지식 평가

종이 • 웹 사이트 •? 데이터 세트 • ⌚️ 개요 •? QuickStart •? 리더 보드 • 인용

博学之博学之, 审问之审问之, 慎思之, 明辨之, 笃行之。笃行之。

—— 평균의 교리

Sci Entific Know Ledge Eval Uation ( Sciknoweval ) 대형 언어 모델 (LLMS) 벤치 마크는 고대 중국 철학의“ 평균 교리 ”에 요약 된 심오한 원칙에서 영감을 받았습니다. 이 벤치 마크는 광범위하게 연구하고 , 진지하게 조사하고 , 심오하게 생각하고 , 분별하고, 분별하고 , 실천하는 능력에 근거하여 LLM을 평가하도록 설계되었습니다. 이러한 각 차원은 과학적 지식을 처리 할 때 LLM의 기능을 평가하는 데있어 고유 한 관점을 제공합니다.

? 소식

[2024 년 9 월] 우리는 Sciknoweval과 함께 Openai O1의 평가 보고서를 발표했습니다.
[2024 년 9 월] 우리는 Arxiv의 Sciknoweval 논문을 업데이트했습니다.
[Jul 2024] 우리는 최근 Sciknoweval에 물리와 재료를 추가했습니다. 여기에서 데이터 세트에 액세스하고 여기에서 리더 보드를 확인할 수 있습니다.
[2024 년 6 월] 우리는 생물학 및 화학을위한 Sciknoweval 데이터 세트와 리더 보드를 발표했습니다.

? 목차

⌚️ 개요
? QuickStart
- 설치
- 데이터 준비
- ? 모델 준비
- 평가하다
? 리더 보드
인용문
감사의 말

⌚️ 개요

✡️ 평가 능력

L1 : 광범위하게 공부 (예 : 지식 기억 ). 이 차원은 다양한 과학 영역에서 LLM 지식의 폭을 평가합니다. 그것은 광범위한 과학적 개념을 기억하는 모델의 능력을 측정합니다.
l2 : 진지하게 묻습니다 (즉, 지식 이해력 ). 이 측면은 과학적 텍스트 분석, 주요 개념 식별 및 관련 정보에 의문과 같은 과학적 맥락에서 깊은 조사 및 탐사에 대한 LLM의 능력에 중점을 둡니다.
L3 : 심오하게 생각합니다 (즉, 지식 추론 ). 이 기준은 비판적 사고, 논리적 공제, 수치 계산, 기능 예측 및 문제를 해결하기 위해 반사적 추론에 참여할 수있는 모델의 능력을 조사합니다.
? L4 : 분명한 분명한 (즉, 지식 분별력 ). 이러한 측면은 정보의 유해함과 독성 평가, 과학적 노력과 관련된 윤리적 의미 및 안전 문제를 이해하는 등 과학적 지식을 바탕으로 정확하고 안전하며 윤리적 인 결정을 내릴 수있는 LLM의 능력을 평가합니다.
? L5 : 불쾌하게 연습 (즉, 지식 응용 프로그램 ). 최종 차원은 복잡한 과학적 문제 분석 및 혁신적인 솔루션 만들기와 같은 실제 시나리오에서 과학 지식을 효과적으로 적용 할 수있는 LLM의 능력을 평가합니다.

도메인 및 작업

데이터 통계

데이터 구성

? QuickStart

1 단계 : 설치

sciknoweval에서 LLM을 평가하려면 먼저 저장소를 복제하십시오.

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

다음으로 의존성을 관리하기 위해 콘다 환경을 설정하십시오.

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

그런 다음 필요한 종속성을 설치하십시오.

pip install -r requirements.txt

2 단계 : 데이터 준비

Sciknoweval 벤치 마크를 시작합니다

Sciknoweval 벤치 마크 데이터 다운로드 : Sciknoweval 벤치 마크를 사용하여 언어 모델 평가를 시작하려면 먼저 데이터 세트를 다운로드해야합니다. 사용 가능한 두 가지 소스가 있습니다.
- ? Huggingface Dataset Hub : Huggingface 페이지에서 직접 데이터 세트에 액세스하고 다운로드하십시오. https://huggingface.co/datasets/hicai-zju/sciknoweval
- 저장소 데이터 폴더 : 데이터 세트는이 저장소의 ./raw_data/ 폴더 내에서 레벨 (l1 ~ l5) 및 작업별로 구성됩니다. 부품을 별도로 다운로드하여 필요에 따라 단일 JSON 파일로 통합 할 수 있습니다.
모델의 예측 준비 :이 저장소에 제공된 공식 평가 스크립트 eval.py 활용하여 모델을 평가하십시오. 다음 JSON 형식으로 모델의 예측을 준비해야합니다. 여기서 각 항목은 질문, 선택, 답장, 유형, 도메인, 레벨, 작업 및 하위 작업과 같은 데이터의 모든 원본 속성 (다운로드 한 데이터 세트에서 찾을 수 있음)을 보존해야합니다. "응답"필드에서 모델의 예측 답변을 추가하십시오.

모델 평가를위한 예제 JSON 형식 :

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

기억해야 할 키가 있습니다

모든 원래 필드 보존 : 각 JSON 객체가 평가의 무결성을 유지하기 위해 모든 원래 데이터 필드를 유지하도록하십시오.
모델 예측 : 모델 예측을 각 JSON 객체의 "응답"필드에 배치하십시오.

이 지침을 따르면 Sciknoweval 벤치 마크를 효과적으로 사용하여 다양한 과학적 작업 및 수준에서 언어 모델의 성능을 평가할 수 있습니다.

? 3 단계 : 모델 준비

1. 관계 추출 작업의 경우 word2vec 모델로 텍스트 유사성을 계산해야합니다. 우리는 Googlenews-Vectors를 기본 모델로 사전 치료 한 모델을 사용합니다.

이 링크에서 Local 로의 GoogleNews-vectors-negative300.bin.gz 다운로드하십시오.

관계 추출 평가 코드는 처음에 AI4S 컵 팀이 개발했습니다. 훌륭한 작업에 감사드립니다!?

2. 점수에 GPT를 사용하는 작업의 경우 OpenAI API를 사용하여 답변을 평가합니다.

OpenAI_API_KEY 환경 변수에서 OpenAI API 키를 설정하십시오. export OPENAI_API_KEY="YOUR_API_KEY" 사용하여 환경 변수를 설정하십시오.
OPENAI_API_KEY 환경 변수를 설정하지 않으면 평가는 GPT 점수가 필요한 작업을 자동으로 건너 뜁니다 .
기본 평가자로 gpt-4o 선택합니다!

4 단계 : 평가

eval.py 실행하여 모델을 평가할 수 있습니다.

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

? 리더 보드

최신 리더 보드가 여기에 표시됩니다.

인용문

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}