SciKnowEvalダウンロードSciKnowEvalソースコードのダウンロード

SciKnowEval

AI ソースコード

1.0.0

ダウンロード

Sciknoweval：大規模な言語モデルのマルチレベルの科学的知識の評価

論文•ウェブサイト•？ DataSet•⌚️概要•？ QuickStart•？リーダーボード•引用

博学之、审问之、慎思之、明辨之、笃行之。

- 《礼记・・平均の教義

大規模な言語モデル（LLMS）のSci Entific Know Ledge評価（ Sciknoweval ）ベンチマークは、古代中国の哲学からの「平均の教義」に概説されている深い原則に触発されています。このベンチマークは、 LLMSが広範囲に勉強する習熟度に基づいてLLMSを評価するように設計されています。これらのそれぞれの次元は、科学的知識を処理する際にLLMの能力を評価することに関するユニークな視点を提供します。

？ニュース

[2024年9月] sciknowevalを使用したOpenai O1の評価レポートをリリースしました。
[2024年9月] arxivのsciknoweval論文を更新しました。
[2024年7月]最近、Sciknowevalに物理学と材料を追加しました。こちらからデータセットにアクセスして、こちらのリーダーボードをご覧ください。
[2024年6月]生物学と化学のためのSciknowevalデータセットとリーダーボードをリリースしました。

？目次

⌚️概要
？クイックスタート
- インストール
- データを準備します
- ？モデルを準備します
- 評価する
？リーダーボード
引用
謝辞

⌚️概要

✡§評価された能力

L1 ：広範囲に勉強する（つまり、知識のメモリ）。この次元は、さまざまな科学的領域にわたるLLMの知識の幅を評価します。幅広い科学的概念を覚えているモデルの能力を測定します。
❓L2 ：真剣に尋ねる（つまり、知識の理解）。この側面は、科学的テキストの分析、重要な概念の特定、関連情報への質問など、科学的文脈内での深い調査と探索のためのLLMの能力に焦点を当てています。
L3 ：深く考える（つまり、知識の推論）。この基準では、批判的思考、論理的控除、数値計算、関数予測、および問題を解決するために反射的な推論に従事する能力に対するモデルの能力を調べます。
？ L4 ：はっきりと識別力があります（つまり、知識の識別力）。この側面は、情報の有害性と毒性の評価、科学的努力に関連する倫理的影響と安全性の懸念を理解するなど、科学的知識に基づいて正しい、安全で、倫理的な決定を下すLLMの能力を評価します。
？ L5 ：熱心に練習する（つまり、知識アプリケーション）。最終的な次元では、複雑な科学的問題の分析や革新的なソリューションの作成など、実際のシナリオで科学的知識を効果的に適用するLLMの能力を評価します。

ドメインとタスク

データ統計

データ構築

？クイックスタート

ステップ1：インストール

SciknowevalでLLMを評価するには、最初にリポジトリをクローンします。

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

次に、依存関係を管理するためにコンドラ環境を設定します。

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

次に、必要な依存関係をインストールします。

pip install -r requirements.txt

ステップ2：データを準備します

Sciknoweval Benchmarkを開始します

sciknowevalベンチマークデータをダウンロードする：sciknowevalベンチマークを使用して言語モデルの評価を開始するには、最初にデータセットをダウンロードする必要があります。利用可能な2つのソースがあります。
- ？ Huggingface Dataset Hub ：Huggingfaceページからデータセットに直接アクセスしてダウンロードしてください：https：//huggingface.co/datasets/hicai-zju/sciknoweval
- リポジトリデータフォルダー：データセットは、このリポジトリの./raw_data/フォルダー内のレベル（L1〜L5）とタスクによって編成されます。部品を個別にダウンロードし、必要に応じて単一のJSONファイルに統合することができます。
モデルの予測を準備します。このリポジトリで提供されている公式評価スクリプトeval.pyを利用して、モデルを評価します。次のJSON形式でモデルの予測を準備する必要があります。各エントリは、質問、選択、回答、タイプ、ドメイン、レベル、タスク、サブタスクなどのデータのすべての元の属性（ダウンロードしたデータセットにあります）を保存する必要があります。「応答」フィールドの下にモデルの予測回答を追加します。

モデル評価のためのJSON形式の例：

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

❗キーは覚えておいてください

すべての元のフィールドを保存する：各JSONオブジェクトがすべての元のデータフィールドを保持して、評価の整合性を維持するようにします。
モデルの予測：各JSONオブジェクトの「応答」フィールドにモデルの予測を配置します。

これらのガイドラインに従うことにより、Sciknowevalベンチマークを効果的に使用して、さまざまな科学的タスクやレベルにわたる言語モデルのパフォーマンスを評価できます。

？ステップ3：モデルを準備します

1.関係抽出タスクの場合、 word2vecモデルでテキストの類似性を計算する必要があります。 GoogleNews-Vectorsは、デフォルトモデルとして前提型モデルを使用します。

このリンクからLocalへのGoogleNews-vectors-negative300.bin.gzをダウンロードしてください。

関係抽出評価コードは、最初はAI4Sカップチームによって開発されました。

2。スコアリングにGPTを使用するタスクの場合、OpenAI APIを使用して回答を評価します。

OpenAI_API_KEY環境変数にOpenAI APIキーを設定してください。 export OPENAI_API_KEY="YOUR_API_KEY"を使用して、環境変数を設定します。
OPENAI_API_KEY環境変数を設定しない場合、評価はGPTスコアリングを必要とするタスクを自動的にスキップします。
デフォルトの評価者としてgpt-4oを選択します！

ステップ4：評価します

eval.pyを実行してモデルを評価できます。

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

？リーダーボード

最新のリーダーボードはここに示されています。

引用

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}