กระดาษ•เว็บไซต์•? ชุดข้อมูล•⌚ภาพรวม•? Quickstart •? ลีดเดอร์บอร์ด•อ้างอิง
博学之, 审问之, 慎思之, 明辨之, 笃行之。笃行之。
—— 《礼记 · 中庸》 หลักคำสอนของค่าเฉลี่ย

เกณฑ์มาตรฐาน Sci entific Know Ledge ( Sciknoweval ) สำหรับแบบจำลองภาษาขนาดใหญ่ (LLMS) ได้รับแรงบันดาลใจจากหลักการที่ลึกซึ้งที่ระบุไว้ใน " หลักคำสอนของค่าเฉลี่ย " จากปรัชญาจีนโบราณ เกณฑ์มาตรฐานนี้ได้รับการออกแบบมาเพื่อประเมิน LLMS ตามความสามารถของพวกเขาใน การศึกษาอย่างกว้างขวาง สอบถามอย่างจริงจัง คิดอย่างลึกซึ้งฉลาด มองเห็นได้ชัดเจน และ ฝึกฝนอย่างขยันขันแข็ง แต่ละมิติเหล่านี้มีมุมมองที่เป็นเอกลักษณ์ในการประเมินความสามารถของ LLM ในการจัดการความรู้ทางวิทยาศาสตร์
[ก.ย. 2024] เราออกรายงานการประเมินผลของ Openai O1 กับ Sciknoweval
[ก.ย. 2024] เราได้อัปเดตกระดาษ Sciknoweval ใน arxiv
[ก.ค. 2024] เราเพิ่งเพิ่มฟิสิกส์และวัสดุลงใน Sciknoweval คุณสามารถเข้าถึงชุดข้อมูลได้ที่นี่และตรวจสอบลีดเดอร์บอร์ดได้ที่นี่
[มิ.ย. 2024] เราเปิดตัวชุดข้อมูล Sciknoweval และกระดานผู้นำสำหรับชีววิทยาและเคมี
L1 : การศึกษาอย่างกว้างขวาง (เช่น หน่วยความจำความรู้ ) มิตินี้ประเมินความกว้างของความรู้ของ LLM ในโดเมนทางวิทยาศาสตร์ต่างๆ มันวัดความสามารถของแบบจำลองในการจดจำแนวคิดทางวิทยาศาสตร์ที่หลากหลาย
❓ L2 : สอบถามอย่างจริงจัง (เช่น ความเข้าใจความรู้ ) แง่มุมนี้มุ่งเน้นไปที่ความสามารถของ LLM สำหรับการสอบถามและการสำรวจอย่างลึกซึ้งภายในบริบททางวิทยาศาสตร์เช่นการวิเคราะห์ข้อความทางวิทยาศาสตร์การระบุแนวคิดหลักและการตั้งคำถามเกี่ยวกับข้อมูลที่เกี่ยวข้อง
L3 : คิดอย่างลึกซึ้ง (เช่น การให้เหตุผลความรู้ ) เกณฑ์นี้ตรวจสอบความสามารถของแบบจำลองสำหรับการคิดอย่างมีวิจารณญาณการหักเชิงตรรกะการคำนวณเชิงตัวเลขการทำนายฟังก์ชั่นและความสามารถในการมีส่วนร่วมในการให้เหตุผลแบบไตร่ตรองเพื่อแก้ปัญหา
- L4 : แยกแยะได้อย่างชัดเจน (เช่น การแยกแยะความรู้ ) แง่มุมนี้ประเมินความสามารถของ LLM ในการตัดสินใจที่ถูกต้องปลอดภัยและมีจริยธรรมบนพื้นฐานของความรู้ทางวิทยาศาสตร์รวมถึงการประเมินความเป็นอันตรายและความเป็นพิษของข้อมูลและการทำความเข้าใจเกี่ยวกับผลกระทบทางจริยธรรมและความกังวลด้านความปลอดภัยที่เกี่ยวข้องกับความพยายามทางวิทยาศาสตร์
- L5 : ฝึกฝนอย่างล้นหลาม (เช่น แอปพลิเคชันความรู้ ) มิติสุดท้ายประเมินความสามารถของ LLM ในการใช้ความรู้ทางวิทยาศาสตร์อย่างมีประสิทธิภาพในสถานการณ์จริงเช่นการวิเคราะห์ปัญหาทางวิทยาศาสตร์ที่ซับซ้อนและการสร้างโซลูชั่นที่เป็นนวัตกรรม




ในการประเมิน LLMs บน Sciknoweval ให้โคลนที่เก็บแรก:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEvalถัดไปตั้งค่าสภาพแวดล้อม conda เพื่อจัดการการพึ่งพา:
conda create -n sciknoweval python=3.10.9
conda activate sciknowevalจากนั้นติดตั้งการพึ่งพาที่ต้องการ:
pip install -r requirements.txtดาวน์โหลดข้อมูลเบนช์มาร์ก Sciknoweval : ในการเริ่มต้นการประเมินรูปแบบภาษาโดยใช้เกณฑ์มาตรฐาน Sciknoweval คุณควรดาวน์โหลดชุดข้อมูลของเราก่อน มีสองแหล่งที่มีอยู่:
- HUGGGENTFACE DATASET HUB : เข้าถึงและดาวน์โหลดชุดข้อมูลโดยตรงจากหน้า HuggingFace ของเรา: https://huggingface.co/datasets/hicai-zju/sciknoweval
โฟลเดอร์ข้อมูลที่เก็บ : ชุดข้อมูลถูกจัดระเบียบตามระดับ (L1 ~ L5) และงานภายใน ./raw_data/ โฟลเดอร์ของที่เก็บนี้ คุณสามารถดาวน์โหลดชิ้นส่วนแยกต่างหากและรวมไว้ในไฟล์ JSON เดียวตามต้องการ
เตรียมการคาดการณ์ของแบบจำลองของคุณ : ใช้ประโยชน์จากสคริปต์การประเมินผลอย่างเป็นทางการ eval.py ที่ให้ไว้ในที่เก็บนี้เพื่อประเมินแบบจำลองของคุณ คุณจะต้องเตรียมการคาดการณ์ของโมเดลของคุณในรูปแบบ JSON ต่อไปนี้ซึ่งแต่ละรายการจะต้องรักษาแอตทริบิวต์ดั้งเดิมทั้งหมด (ซึ่งสามารถพบได้ในชุดข้อมูลที่คุณดาวน์โหลด) ของข้อมูลเช่นคำถามตัวเลือกคำตอบ, ประเภท, โดเมน, ระดับ, งานและภารกิจย่อย เพิ่มคำตอบที่คาดการณ์ของโมเดลของคุณภายใต้ฟิลด์ "การตอบกลับ"
ตัวอย่างรูปแบบ JSON สำหรับการประเมินแบบจำลอง:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]โดยทำตามแนวทางเหล่านี้คุณสามารถใช้เกณฑ์มาตรฐาน Sciknoweval ได้อย่างมีประสิทธิภาพเพื่อประเมินประสิทธิภาพของแบบจำลองภาษาในงานและระดับทางวิทยาศาสตร์ที่หลากหลาย
1. สำหรับงานสกัดความสัมพันธ์เราจำเป็นต้องคำนวณความคล้ายคลึงกันของข้อความด้วยโมเดล word2vec เราใช้โมเดล googlenews-vectors ที่ถูกปรับแต่งเป็นรุ่นเริ่มต้น
GoogleNews-vectors-negative300.bin.gz จากลิงค์นี้ไปยัง Localรหัสการประเมินการสกัดความสัมพันธ์ได้รับการพัฒนาครั้งแรกโดยทีม AI4S Cup ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา!
2. สำหรับงานที่ใช้ GPT สำหรับการให้คะแนนเราใช้ OpenAI API เพื่อประเมินคำตอบ
โปรดตั้งค่าคีย์ OpenAI API ของคุณในตัวแปรสภาพแวดล้อม OpenAI_API_KEY ใช้ export OPENAI_API_KEY="YOUR_API_KEY" เพื่อตั้งค่าตัวแปรสภาพแวดล้อม
หากคุณไม่ได้ตั้งค่าตัวแปรสภาพแวดล้อม OPENAI_API_KEY การประเมินผลจะ ข้ามงานที่ต้องให้คะแนน GPT โดยอัตโนมัติ
เราเลือก gpt-4o เป็นตัวประเมินเริ่มต้น!
คุณสามารถเรียกใช้ eval.py เพื่อประเมินโมเดลของคุณ:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path กระดานผู้นำล่าสุดจะแสดงที่นี่
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
ขอขอบคุณเป็นพิเศษสำหรับผู้เขียน Llasmol: การพัฒนาแบบจำลองภาษาขนาดใหญ่สำหรับเคมีด้วยชุดข้อมูลการปรับแต่งการสอนคุณภาพสูงที่ครอบคลุมและมีคุณภาพสูงและผู้จัดงาน AI4S Cup-LLM Challenge สำหรับงานที่สร้างแรงบันดาลใจ
ส่วนที่ประเมินการสร้างโมเลกุลใน evaluation/utils/generation.py รวมถึง evaluation/utils/relation_extraction.py มีพื้นฐานอยู่ในการวิจัยของพวกเขา ขอบคุณสำหรับการมีส่วนร่วมที่มีค่าของพวกเขา