ورقة • موقع •؟ مجموعة البيانات • ⌚ نظرة عامة •؟ QuickStart •؟ المتصدرون • استشهد
博学之 , 审问之 , 慎思之 , , 笃行之。
—— 《礼记 · 中庸》 عقيدة الوسط

إن SCI Enerific express eval uation ( Sciknoweval ) بالنسبة لنماذج اللغة الكبيرة (LLMS) مستوحاة من المبادئ العميقة الموضحة في " عقيدة المتوسط " من الفلسفة الصينية القديمة. تم تصميم هذا المعيار لتقييم LLMs بناءً على كفاءتها في الدراسة على نطاق واسع ، والاستفسار عن جدية ، والتفكير بشكل عميق ، والشفرة بوضوح ، وممارسة الجادة . يقدم كل من هذه الأبعاد منظوراً فريدًا حول تقييم قدرات LLMs في التعامل مع المعرفة العلمية.
[سبتمبر 2024] أصدرنا تقرير تقييم عن Openai O1 مع Sciknoweval.
[سبتمبر 2024] قمنا بتحديث ورقة Sciknoweval في Arxiv.
[يوليو 2024] لقد أضفنا مؤخرًا الفيزياء والمواد إلى Sciknoweval. يمكنك الوصول إلى مجموعة البيانات هنا والتحقق من لوحة المتصدرين هنا.
[يونيو 2024] أصدرنا مجموعة بيانات Sciknoweval و Leadorboard لعلم الأحياء والكيمياء.
L1 : الدراسة على نطاق واسع (أي ذاكرة المعرفة ). يقيم هذا البعد اتساع معرفة LLM عبر مختلف المجالات العلمية. إنه يقيس قدرة النموذج على تذكر مجموعة واسعة من المفاهيم العلمية.
❓ L2 : الاستفسار بجدية (أي فهم المعرفة ). يركز هذا الجانب على قدرة LLM على الاستفسار العميق والاستكشاف داخل السياقات العلمية ، مثل تحليل النصوص العلمية ، وتحديد المفاهيم الرئيسية ، والتشكيك في المعلومات ذات الصلة.
L3 : التفكير بعمق (أي التفكير المعرفة ). يبحث هذا المعيار في قدرة النموذج على التفكير النقدي ، والخصم المنطقي ، والحساب العددي ، والتنبؤ بالوظيفة ، والقدرة على الانخراط في التفكير العاكس لحل المشكلات.
؟ L4 : التمييز بوضوح (أي ، تمييز المعرفة ). يقيم هذا الجانب قدرة LLM على اتخاذ قرارات صحيحة وآمنة وأخلاقية بناءً على المعرفة العلمية ، بما في ذلك تقييم ضرر المعلومات وسمية ، وفهم الآثار الأخلاقية والمخاوف المتعلقة بالسلامة المتعلقة بالمساعي العلمية.
؟ L5 : ممارسة بجد (أي تطبيق المعرفة ). يقيم البعد النهائي قدرة LLM على تطبيق المعرفة العلمية بفعالية في سيناريوهات العالم الحقيقي ، مثل تحليل المشكلات العلمية المعقدة وخلق حلول مبتكرة.




لتقييم LLMS على Sciknoweval ، استنساخ أولاً المستودع:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEvalبعد ذلك ، قم بإعداد بيئة كوندا لإدارة التبعيات:
conda create -n sciknoweval python=3.10.9
conda activate sciknowevalثم ، قم بتثبيت التبعيات المطلوبة:
pip install -r requirements.txtقم بتنزيل بيانات Sciknoweval Benchmark : للبدء في تقييم نماذج اللغة باستخدام معيار Sciknoweval ، يجب عليك أولاً تنزيل مجموعة البيانات الخاصة بنا. هناك مصدران متاحان:
؟ Huggingface Dataset Hub : الوصول وتنزيل مجموعة البيانات مباشرة من صفحة Huggingface الخاصة بنا: https://huggingface.co/Datasets/HICAI-ZJU/SCIKNOWEVAL
مجلد بيانات المستودع : يتم تنظيم مجموعة البيانات حسب المستوى (L1 ~ L5) ومهمة ضمن مجلد ./raw_data/ من هذا المستودع. يمكنك تنزيل قطع الغيار بشكل منفصل ودمجها في ملف JSON واحد حسب الحاجة.
قم بإعداد تنبؤات النموذج الخاص بك : الاستفادة من برنامج التقييم الرسمي eval.py المقدم في هذا المستودع لتقييم النموذج الخاص بك. يُطلب منك إعداد تنبؤات النموذج الخاص بك بتنسيق JSON التالي ، حيث يجب على كل إدخال الحفاظ على جميع السمات الأصلية (التي يمكن العثور عليها في مجموعة البيانات التي قمت بتنزيلها) من البيانات مثل السؤال والخيارات والاستجابة والمجال والمجال والمهمة والمهام الفرعية. أضف الإجابة المتوقعة للنموذج الخاص بك تحت حقل "الاستجابة".
مثال على تنسيق JSON لتقييم النموذج:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]من خلال اتباع هذه الإرشادات ، يمكنك استخدام المعيار الفعال ل Sciknoweval لتقييم أداء نماذج اللغة عبر مختلف المهام والمستويات العلمية.
1. لمهام استخراج العلاقة ، نحتاج إلى حساب تشابه النص مع نموذج word2vec . نحن نستخدم نموذج Googlenews-Beacted PretRained كنموذج افتراضي.
GoogleNews-vectors-negative300.bin.gz من هذا الرابط إلى Local.تم تطوير رمز تقييم استخراج العلاقة في البداية من قبل فريق كأس AI4S ، شكرًا على عملهم الرائع!؟
2. للمهام التي تستخدم GPT للتسجيل ، نستخدم Openai API لتقييم الإجابات.
يرجى تعيين مفتاح Openai API الخاص بك في متغير بيئة OpenAI_API_KEY . استخدم export OPENAI_API_KEY="YOUR_API_KEY" لتعيين متغير البيئة.
إذا لم تقم بتعيين متغير بيئة OPENAI_API_KEY ، فسيقوم التقييم تلقائيًا بتخطي المهام التي تتطلب تسجيل GPT .
نختار gpt-4o كمقيم افتراضي!
يمكنك تشغيل eval.py لتقييم النموذج الخاص بك:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path يتم عرض أحدث ألواح المتصدرين هنا.
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
شكر خاص لمؤلفي Llasmol: تقدم نماذج لغة كبيرة للكيمياء مع مجموعة بيانات توليف تعليمات واسعة النطاق وشاملة وعالية الجودة ، ومنظمي Cup Cup-LLM LLM على عملهم الملهم.
الأقسام التي تقيم التوليد الجزيئي في evaluation/utils/generation.py ، وكذلك evaluation/utils/relation_extraction.py ، ترتكز على أبحاثهم. ممتن لمساهماتهم القيمة