論文•ウェブサイト•? DataSet•⌚️概要•? QuickStart•?リーダーボード•引用
博学之、审问之、慎思之、明辨之、笃行之。
- 《礼记・・平均の教義

大規模な言語モデル(LLMS)のSci Entific Know Ledge評価( Sciknoweval )ベンチマークは、古代中国の哲学からの「平均の教義」に概説されている深い原則に触発されています。このベンチマークは、 LLMSが広範囲に勉強する習熟度に基づいてLLMSを評価するように設計されています。これらのそれぞれの次元は、科学的知識を処理する際にLLMの能力を評価することに関するユニークな視点を提供します。
[2024年9月] sciknowevalを使用したOpenai O1の評価レポートをリリースしました。
[2024年9月] arxivのsciknoweval論文を更新しました。
[2024年7月]最近、Sciknowevalに物理学と材料を追加しました。こちらからデータセットにアクセスして、こちらのリーダーボードをご覧ください。
[2024年6月]生物学と化学のためのSciknowevalデータセットとリーダーボードをリリースしました。
L1 :広範囲に勉強する(つまり、知識のメモリ)。この次元は、さまざまな科学的領域にわたるLLMの知識の幅を評価します。幅広い科学的概念を覚えているモデルの能力を測定します。
❓L2 :真剣に尋ねる(つまり、知識の理解)。この側面は、科学的テキストの分析、重要な概念の特定、関連情報への質問など、科学的文脈内での深い調査と探索のためのLLMの能力に焦点を当てています。
L3 :深く考える(つまり、知識の推論)。この基準では、批判的思考、論理的控除、数値計算、関数予測、および問題を解決するために反射的な推論に従事する能力に対するモデルの能力を調べます。
? L4 :はっきりと識別力があります(つまり、知識の識別力)。この側面は、情報の有害性と毒性の評価、科学的努力に関連する倫理的影響と安全性の懸念を理解するなど、科学的知識に基づいて正しい、安全で、倫理的な決定を下すLLMの能力を評価します。
? L5 :熱心に練習する(つまり、知識アプリケーション)。最終的な次元では、複雑な科学的問題の分析や革新的なソリューションの作成など、実際のシナリオで科学的知識を効果的に適用するLLMの能力を評価します。




SciknowevalでLLMを評価するには、最初にリポジトリをクローンします。
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval次に、依存関係を管理するためにコンドラ環境を設定します。
conda create -n sciknoweval python=3.10.9
conda activate sciknoweval次に、必要な依存関係をインストールします。
pip install -r requirements.txtsciknowevalベンチマークデータをダウンロードする:sciknowevalベンチマークを使用して言語モデルの評価を開始するには、最初にデータセットをダウンロードする必要があります。利用可能な2つのソースがあります。
? Huggingface Dataset Hub :Huggingfaceページからデータセットに直接アクセスしてダウンロードしてください:https://huggingface.co/datasets/hicai-zju/sciknoweval
リポジトリデータフォルダー:データセットは、このリポジトリの./raw_data/フォルダー内のレベル(L1〜L5)とタスクによって編成されます。部品を個別にダウンロードし、必要に応じて単一のJSONファイルに統合することができます。
モデルの予測を準備します。このリポジトリで提供されている公式評価スクリプトeval.pyを利用して、モデルを評価します。次のJSON形式でモデルの予測を準備する必要があります。各エントリは、質問、選択、回答、タイプ、ドメイン、レベル、タスク、サブタスクなどのデータのすべての元の属性(ダウンロードしたデータセットにあります)を保存する必要があります。 「応答」フィールドの下にモデルの予測回答を追加します。
モデル評価のためのJSON形式の例:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]これらのガイドラインに従うことにより、Sciknowevalベンチマークを効果的に使用して、さまざまな科学的タスクやレベルにわたる言語モデルのパフォーマンスを評価できます。
1.関係抽出タスクの場合、 word2vecモデルでテキストの類似性を計算する必要があります。 GoogleNews-Vectorsは、デフォルトモデルとして前提型モデルを使用します。
GoogleNews-vectors-negative300.bin.gzをダウンロードしてください。関係抽出評価コードは、最初はAI4Sカップチームによって開発されました。
2。スコアリングにGPTを使用するタスクの場合、OpenAI APIを使用して回答を評価します。
OpenAI_API_KEY環境変数にOpenAI APIキーを設定してください。 export OPENAI_API_KEY="YOUR_API_KEY"を使用して、環境変数を設定します。
OPENAI_API_KEY環境変数を設定しない場合、評価はGPTスコアリングを必要とするタスクを自動的にスキップします。
デフォルトの評価者としてgpt-4oを選択します!
eval.pyを実行してモデルを評価できます。
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path 最新のリーダーボードはここに示されています。
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Llasmolの著者に感謝します:大規模で包括的な、高品質の指導チューニングデータセットで化学のための大規模な言語モデルを進め、AI4S Cup-LLM Challenge for The Inspiring Workの主催者。
evaluation/utils/generation.pyの分子生成を評価するセクション、およびevaluation/utils/relation_extraction.py 、研究に基づいています。彼らの貴重な貢献に感謝します