ดาวน์โหลด SciKnowEval - SciKnowEval ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

SciKnowEval

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Sciknoweval: การประเมินความรู้ทางวิทยาศาสตร์หลายระดับของแบบจำลองภาษาขนาดใหญ่

กระดาษ•เว็บไซต์•? ชุดข้อมูล•⌚ภาพรวม•? Quickstart •? ลีดเดอร์บอร์ด•อ้างอิง

博学之，审问之，慎思之，明辨之，笃行之。笃行之。

—— 《礼记 · 中庸》 หลักคำสอนของค่าเฉลี่ย

เกณฑ์มาตรฐาน Sci entific Know Ledge ( Sciknoweval ) สำหรับแบบจำลองภาษาขนาดใหญ่ (LLMS) ได้รับแรงบันดาลใจจากหลักการที่ลึกซึ้งที่ระบุไว้ใน " หลักคำสอนของค่าเฉลี่ย " จากปรัชญาจีนโบราณ เกณฑ์มาตรฐานนี้ได้รับการออกแบบมาเพื่อประเมิน LLMS ตามความสามารถของพวกเขาใน การศึกษาอย่างกว้างขวาง สอบถามอย่างจริงจัง คิดอย่างลึกซึ้งฉลาด มองเห็นได้ชัดเจน และ ฝึกฝนอย่างขยันขันแข็ง แต่ละมิติเหล่านี้มีมุมมองที่เป็นเอกลักษณ์ในการประเมินความสามารถของ LLM ในการจัดการความรู้ทางวิทยาศาสตร์

- ข่าว

[ก.ย. 2024] เราออกรายงานการประเมินผลของ Openai O1 กับ Sciknoweval
[ก.ย. 2024] เราได้อัปเดตกระดาษ Sciknoweval ใน arxiv
[ก.ค. 2024] เราเพิ่งเพิ่มฟิสิกส์และวัสดุลงใน Sciknoweval คุณสามารถเข้าถึงชุดข้อมูลได้ที่นี่และตรวจสอบลีดเดอร์บอร์ดได้ที่นี่
[มิ.ย. 2024] เราเปิดตัวชุดข้อมูล Sciknoweval และกระดานผู้นำสำหรับชีววิทยาและเคมี

- สารบัญ

⌚ภาพรวม
- เร็ว
- การติดตั้ง
- เตรียมข้อมูล
- - เตรียมโมเดล
- ประเมิน
- ลีดเดอร์บอร์ด
อ้างถึง
กิตติกรรมประกาศ

⌚ภาพรวม

✡ความสามารถในการประเมิน

L1 : การศึกษาอย่างกว้างขวาง (เช่น หน่วยความจำความรู้ ) มิตินี้ประเมินความกว้างของความรู้ของ LLM ในโดเมนทางวิทยาศาสตร์ต่างๆ มันวัดความสามารถของแบบจำลองในการจดจำแนวคิดทางวิทยาศาสตร์ที่หลากหลาย
❓ L2 : สอบถามอย่างจริงจัง (เช่น ความเข้าใจความรู้ ) แง่มุมนี้มุ่งเน้นไปที่ความสามารถของ LLM สำหรับการสอบถามและการสำรวจอย่างลึกซึ้งภายในบริบททางวิทยาศาสตร์เช่นการวิเคราะห์ข้อความทางวิทยาศาสตร์การระบุแนวคิดหลักและการตั้งคำถามเกี่ยวกับข้อมูลที่เกี่ยวข้อง
L3 : คิดอย่างลึกซึ้ง (เช่น การให้เหตุผลความรู้ ) เกณฑ์นี้ตรวจสอบความสามารถของแบบจำลองสำหรับการคิดอย่างมีวิจารณญาณการหักเชิงตรรกะการคำนวณเชิงตัวเลขการทำนายฟังก์ชั่นและความสามารถในการมีส่วนร่วมในการให้เหตุผลแบบไตร่ตรองเพื่อแก้ปัญหา
- L4 : แยกแยะได้อย่างชัดเจน (เช่น การแยกแยะความรู้ ) แง่มุมนี้ประเมินความสามารถของ LLM ในการตัดสินใจที่ถูกต้องปลอดภัยและมีจริยธรรมบนพื้นฐานของความรู้ทางวิทยาศาสตร์รวมถึงการประเมินความเป็นอันตรายและความเป็นพิษของข้อมูลและการทำความเข้าใจเกี่ยวกับผลกระทบทางจริยธรรมและความกังวลด้านความปลอดภัยที่เกี่ยวข้องกับความพยายามทางวิทยาศาสตร์
- L5 : ฝึกฝนอย่างล้นหลาม (เช่น แอปพลิเคชันความรู้ ) มิติสุดท้ายประเมินความสามารถของ LLM ในการใช้ความรู้ทางวิทยาศาสตร์อย่างมีประสิทธิภาพในสถานการณ์จริงเช่นการวิเคราะห์ปัญหาทางวิทยาศาสตร์ที่ซับซ้อนและการสร้างโซลูชั่นที่เป็นนวัตกรรม

โดเมนและงาน

สถิติข้อมูล

การก่อสร้างข้อมูล

- เร็ว

ขั้นตอนที่ 1: การติดตั้ง

ในการประเมิน LLMs บน Sciknoweval ให้โคลนที่เก็บแรก:

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

ถัดไปตั้งค่าสภาพแวดล้อม conda เพื่อจัดการการพึ่งพา:

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

จากนั้นติดตั้งการพึ่งพาที่ต้องการ:

pip install -r requirements.txt

ขั้นตอนที่ 2: เตรียมข้อมูล

เริ่มต้นด้วยเกณฑ์มาตรฐาน Sciknoweval

ดาวน์โหลดข้อมูลเบนช์มาร์ก Sciknoweval : ในการเริ่มต้นการประเมินรูปแบบภาษาโดยใช้เกณฑ์มาตรฐาน Sciknoweval คุณควรดาวน์โหลดชุดข้อมูลของเราก่อน มีสองแหล่งที่มีอยู่:
- - HUGGGENTFACE DATASET HUB : เข้าถึงและดาวน์โหลดชุดข้อมูลโดยตรงจากหน้า HuggingFace ของเรา: https://huggingface.co/datasets/hicai-zju/sciknoweval
- โฟลเดอร์ข้อมูลที่เก็บ : ชุดข้อมูลถูกจัดระเบียบตามระดับ (L1 ~ L5) และงานภายใน ./raw_data/ โฟลเดอร์ของที่เก็บนี้ คุณสามารถดาวน์โหลดชิ้นส่วนแยกต่างหากและรวมไว้ในไฟล์ JSON เดียวตามต้องการ
เตรียมการคาดการณ์ของแบบจำลองของคุณ : ใช้ประโยชน์จากสคริปต์การประเมินผลอย่างเป็นทางการ eval.py ที่ให้ไว้ในที่เก็บนี้เพื่อประเมินแบบจำลองของคุณ คุณจะต้องเตรียมการคาดการณ์ของโมเดลของคุณในรูปแบบ JSON ต่อไปนี้ซึ่งแต่ละรายการจะต้องรักษาแอตทริบิวต์ดั้งเดิมทั้งหมด (ซึ่งสามารถพบได้ในชุดข้อมูลที่คุณดาวน์โหลด) ของข้อมูลเช่นคำถามตัวเลือกคำตอบ, ประเภท, โดเมน, ระดับ, งานและภารกิจย่อย เพิ่มคำตอบที่คาดการณ์ของโมเดลของคุณภายใต้ฟิลด์ "การตอบกลับ"

ตัวอย่างรูปแบบ JSON สำหรับการประเมินแบบจำลอง:

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

❗จุดที่ต้องจดจำ

รักษาฟิลด์ดั้งเดิมทั้งหมด : ตรวจสอบให้แน่ใจว่าวัตถุ JSON แต่ละรายการยังคงรักษาเขตข้อมูลต้นฉบับทั้งหมดไว้เพื่อรักษาความสมบูรณ์ของการประเมิน
การทำนายแบบจำลอง : วางการคาดการณ์ของแบบจำลองของคุณในฟิลด์ "การตอบสนอง" ของวัตถุ JSON แต่ละรายการ

โดยทำตามแนวทางเหล่านี้คุณสามารถใช้เกณฑ์มาตรฐาน Sciknoweval ได้อย่างมีประสิทธิภาพเพื่อประเมินประสิทธิภาพของแบบจำลองภาษาในงานและระดับทางวิทยาศาสตร์ที่หลากหลาย

- ขั้นตอนที่ 3: เตรียมโมเดล

1. สำหรับงานสกัดความสัมพันธ์เราจำเป็นต้องคำนวณความคล้ายคลึงกันของข้อความด้วยโมเดล word2vec เราใช้โมเดล googlenews-vectors ที่ถูกปรับแต่งเป็นรุ่นเริ่มต้น

ดาวน์โหลด GoogleNews-vectors-negative300.bin.gz จากลิงค์นี้ไปยัง Local

รหัสการประเมินการสกัดความสัมพันธ์ได้รับการพัฒนาครั้งแรกโดยทีม AI4S Cup ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา!

2. สำหรับงานที่ใช้ GPT สำหรับการให้คะแนนเราใช้ OpenAI API เพื่อประเมินคำตอบ

โปรดตั้งค่าคีย์ OpenAI API ของคุณในตัวแปรสภาพแวดล้อม OpenAI_API_KEY ใช้ export OPENAI_API_KEY="YOUR_API_KEY" เพื่อตั้งค่าตัวแปรสภาพแวดล้อม
หากคุณไม่ได้ตั้งค่าตัวแปรสภาพแวดล้อม OPENAI_API_KEY การประเมินผลจะ ข้ามงานที่ต้องให้คะแนน GPT โดยอัตโนมัติ
เราเลือก gpt-4o เป็นตัวประเมินเริ่มต้น!

ขั้นตอนที่ 4: ประเมิน

คุณสามารถเรียกใช้ eval.py เพื่อประเมินโมเดลของคุณ:

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

- ลีดเดอร์บอร์ด

กระดานผู้นำล่าสุดจะแสดงที่นี่

อ้างถึง

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

กิตติกรรมประกาศ

ขอขอบคุณเป็นพิเศษสำหรับผู้เขียน Llasmol: การพัฒนาแบบจำลองภาษาขนาดใหญ่สำหรับเคมีด้วยชุดข้อมูลการปรับแต่งการสอนคุณภาพสูงที่ครอบคลุมและมีคุณภาพสูงและผู้จัดงาน AI4S Cup-LLM Challenge สำหรับงานที่สร้างแรงบันดาลใจ

ส่วนที่ประเมินการสร้างโมเลกุลใน evaluation/utils/generation.py รวมถึง evaluation/utils/relation_extraction.py มีพื้นฐานอยู่ในการวิจัยของพวกเขา ขอบคุณสำหรับการมีส่วนร่วมที่มีค่าของพวกเขา -