Papier • Website •? Datensatz • ⌚️ Übersicht •? QuickStart •? Rangliste • Zitieren
博学之 , 审问之 , 慎思之 , 明辨之 , 笃行之。 笃行之。 笃行之。
—— 《礼记 · 中庸》 Doktrin des Mittelwerts

Der Sci -Verführungs -Know -Ledge -Bewertungsabteil ( sciknoweval ) für Großsprachenmodelle (LLMs) ist von den tiefgreifenden Prinzipien inspiriert, die in der „ Doktrin des Mittelwerts “ aus der alten chinesischen Philosophie beschrieben wurden. Dieser Benchmark soll LLMs basierend auf ihren Fähigkeiten in Bezug auf das Studium, das ernsthafte Studium, das ernsthafte, nachfragende , zutiefst nachdenken , klar erkennen und eifrig praktizieren . Jede dieser Dimensionen bietet eine einzigartige Perspektive zur Bewertung der Fähigkeiten von LLMs bei der Umstellung wissenschaftlicher Kenntnisse.
[Sep 2024] Wir haben einen Bewertungsbericht von OpenAI O1 mit Sciknoweval veröffentlicht.
[Sep 2024] Wir haben das Sciknoweval -Papier in Arxiv aktualisiert.
[Jul 2024] Wir haben kürzlich die Physik und Materialien zu Sciknoweval hinzugefügt. Sie können hier auf den Datensatz zugreifen und die Rangliste hier überprüfen.
[Jun 2024] Wir haben den Sciknoweval -Datensatz und den Ranglisten für Biologie und Chemie veröffentlicht.
L1 : Ausführlich studieren (dh Knowledge Memory ). Diese Dimension bewertet die Breite des Wissens eines LLM in verschiedenen wissenschaftlichen Bereichen. Es misst die Fähigkeit des Modells, sich an eine breite Palette wissenschaftlicher Konzepte zu erinnern.
❓ L2 : Ernsthaft anfragen (dh Wissensverständnis ). Dieser Aspekt konzentriert sich auf die Fähigkeit des LLM zur tiefen Untersuchung und Erforschung in wissenschaftlichen Kontexten, z.
L3 : tief nachdenken (dh Wissensgründung ). Dieses Kriterium untersucht die Fähigkeit des Modells für kritisches Denken, logischem Abzug, numerische Berechnung, Funktionsvorhersage und die Fähigkeit, reflektierende Argumente zur Lösung von Problemen zu lösen.
? L4 : klar erkennen (dh Knowledge -Unterscheidung ). Dieser Aspekt bewertet die Fähigkeit des LLM, korrekte, sichere und ethische Entscheidungen auf der Grundlage wissenschaftlicher Kenntnisse zu treffen, einschließlich der Beurteilung der Schädlichkeit und Toxizität von Informationen und Verständnis der ethischen Auswirkungen und Sicherheitsbedenken im Zusammenhang mit wissenschaftlichen Bestrebungen.
? L5 : Wichtig praktizieren (dh Knowledge Application ). Die endgültige Dimension bewertet die Fähigkeit des LLM, wissenschaftliches Wissen in realen Szenarien effektiv anzuwenden, z. B. die Analyse komplexer wissenschaftlicher Probleme und die Schaffung innovativer Lösungen.




Um LLMs auf Sciknoweval zu bewerten, klonen Sie zunächst das Repository:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEvalRichten Sie als nächstes eine Conda -Umgebung ein, um die Abhängigkeiten zu verwalten:
conda create -n sciknoweval python=3.10.9
conda activate sciknowevalInstallieren Sie dann die erforderlichen Abhängigkeiten:
pip install -r requirements.txtLaden Sie die SCIKNOWEVAL -Benchmark -Daten herunter : Um mit der Bewertung von Sprachmodellen mit dem ScikNowoweval -Benchmark zu beginnen, sollten Sie zuerst unseren Datensatz herunterladen. Es gibt zwei verfügbare Quellen:
? Huggingface-Datensatz-Hub : Greifen Sie auf den Datensatz direkt von unserer Seite mit der Huggingface zu und laden Sie sie herunter: https://huggingface.co/datasets/hicai-zju/sciknoweval
Repository -Datenordner : Der Datensatz ist nach Level (L1 ~ L5) und Aufgabe im Ordner dieses Repositorys ./raw_data/ organisiert. Sie können Teile separat herunterladen und nach Bedarf in eine einzelne JSON -Datei konsolidieren.
Bereiten Sie die Vorhersagen Ihres Modells vor : Verwenden Sie die in diesem Repository bereitgestellte offizielle eval.py . Sie müssen die Vorhersagen Ihres Modells im folgenden JSON -Format vorbereiten, wobei jeder Eintrag alle ursprünglichen Attribute (die im von Ihnen heruntergeladenen Datensatz gefundenen Datensatz) aufbewahren muss, wie z. B. Frage, Auswahl, Antwort, Typ, Domain, Ebene, Aufgabe und Subtask. Fügen Sie die vorhergesagte Antwort Ihres Modells im Feld "Antwort" hinzu.
Beispiel JSON -Format zur Modellbewertung:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]Durch die Befolgung dieser Richtlinien können Sie den Sciknoweval -Benchmark effektiv verwenden, um die Leistung von Sprachmodellen über verschiedene wissenschaftliche Aufgaben und Ebenen zu bewerten.
1. Für Aufgaben der Beziehungsextraktion müssen wir die Textzeitgleichheit mit word2vec -Modell berechnen. Wir verwenden Googlenews-Vektoren als Standardmodell vor dem Vorschriftenmodell.
GoogleNews-vectors-negative300.bin.gz von diesem Link zu lokal.Der Bewertungscode für Beziehungsextraktion wurde ursprünglich vom AI4S Cup -Team entwickelt, danke für ihre großartige Arbeit!
2. Für Aufgaben, die GPT für die Bewertung verwenden, verwenden wir OpenAI -API, um Antworten zu bewerten.
Bitte setzen Sie Ihren OpenAI -API -Schlüssel in der Umgebungsvariablen OpenAI_API_KEY . Verwenden Sie export OPENAI_API_KEY="YOUR_API_KEY" , um die Umgebungsvariable festzulegen.
Wenn Sie die Umgebungsvariable OPENAI_API_KEY nicht festlegen, überspringt die Bewertung automatisch die Aufgaben, die eine GPT -Bewertung erfordern .
Wir wählen gpt-4o als Standard-Evaluator!
Sie können eval.py ausführen, um Ihr Modell zu bewerten:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path Die neuesten Bestenlisten werden hier gezeigt.
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Besonderer Dank geht an die Autoren von Llasmol: Förderung großer Sprachmodelle für die Chemie mit einem großen, umfassenden, qualitativ hochwertigen Unterrichts-Tuning-Datensatz und den Organisatoren des AI4S Cup-LLM Challenge für ihre inspirierende Arbeit.
Die Abschnitte, die die molekulare Erzeugung in evaluation/utils/generation.py evaluation/utils/relation_extraction.py . Dankbar für ihre wertvollen Beiträge